TF-IDF介绍及应用

TF-IDF是一种用于信息检索和数据挖掘的加权技术,衡量词在文档中的重要性。它结合词频(TF)和逆文档频率(IDF)来过滤常见词汇,保留关键信息。TF-IDF主要应用于搜索引擎和文本分类,通过计算词频和逆文档频率给出词语的权重,高权重词更能代表文档主题。
摘要由CSDN通过智能技术生成

TF-IDF

基本概念

TF-IDFterm frequencyinverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF指词频,IDF指逆向文件频率。主要用于评估某个字词对于一篇文章或一个语料库里的一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。

原理

对于一份给定的文件,词频的计算方法很简单,直接拿某个给定词在文档中出现的次数除以该篇文档的总次数即可。为了保证结果不偏向于长文件,通常将得到的结果进行归一化处理,即分子一般小于分母。

逆向文件频率是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDFTF词频

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值