TF-IDF算法

算法简介

先简单解释一下,TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

TF是词频,表示词条或关键字在文本出现的频率,计算方法如下:

TF_{a}=\frac{k}{\sum _{M}j_{m}} 

其中分子为某一文件中词条 a 出现的频次为 k ,分母为该文件中 M 个词条各自出现的次数j_{m}的总和。

IDF是逆向文件频率,由总文件数目 D 除以包含该词条文件的数目d,再对结果取对数,即:

IDF_{a }=log\frac{D}{d+1}

 其中,分母加1是为了避免分母为0的特殊情况。

最后,衡量词条n在语料库中的重要程度为:

TF-IDF = TF_{a}*IDF_{a}

由上述公式可知,某一特定文件内的高词条频率,以及该词条在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语

应用场景

1)搜索引擎;

2)关键词提取;

3)文本相似性;

4)文本摘要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值