TF.IDF指标

定义

度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF
TF(term frequency): 词项频率。
IDF(inverse document frequency): 逆文档频率。
TF.IDF 为二者的乘积。

计算方法

文档集中有 N N N 篇文档, f i j f_{ij} fij为词项 i i i在文档 j j j中出现的次数,则 T F i j = f i j m a x k f k j TF_{ij}=\frac{f_{ij}}{max_kf_{kj}} TFij=maxkfkjfij
即归一化处理,除以文档 j j j中最高频词项的 T F TF TF值。

假定词项 i i i n i n_i ni篇文档中出现,那么词项 i i i I D F IDF IDF定义如下: I D F i = l o g 2 N n i IDF_i=log_2\frac{N}{n_i} IDFi=log2niN

计算词项 i i i在文档 j j j中的得分 T F i j × I D F i TF_{ij}\times IDF_i TFij×IDFi,具有最高得分的是刻画文档最好的词项。

例子

  • 假定一个文档集由1000万篇文档组成。如果一个单词出现在 (a)40篇或(b)10000篇文档中,那么它的 I D F IDF IDF值是多少。
    (a) I D F = l o g 2 1 0 7 40 IDF=log_2\dfrac{10^{7}}{40} IDF=log240107
    (b) I D F = l o g 2 1 0 7 1 0 4 IDF=log_2\dfrac{10^{7}}{10^{4}} IDF=log2104107

  • 假定一个文档集由1000万篇文档组成,词 w w w出现在其中的320篇文档中。在一篇具体的文档 d d d中,出现最多的词出现了15次,那么 w w w出现(a)1次或(b)5次情况下的 T F . I D F TF.IDF TF.IDF得分分别是多少?
    (a) T F . I D F = 1 15 × l o g 2 1 0 7 320 TF.IDF=\dfrac{1}{15}\times log_2\dfrac{10^7}{320} TF.IDF=151×log2320107
    (b) T F . I D F = 5 15 × l o g 2 1 0 7 320 TF.IDF=\dfrac{5}{15}\times log_2\dfrac{10^7}{320} TF.IDF=155×log2320107

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值