定义
度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF。
TF(term frequency): 词项频率。
IDF(inverse document frequency): 逆文档频率。
TF.IDF 为二者的乘积。
计算方法
文档集中有
N
N
N 篇文档,
f
i
j
f_{ij}
fij为词项
i
i
i在文档
j
j
j中出现的次数,则
T
F
i
j
=
f
i
j
m
a
x
k
f
k
j
TF_{ij}=\frac{f_{ij}}{max_kf_{kj}}
TFij=maxkfkjfij
即归一化处理,除以文档
j
j
j中最高频词项的
T
F
TF
TF值。
假定词项 i i i在 n i n_i ni篇文档中出现,那么词项 i i i的 I D F IDF IDF定义如下: I D F i = l o g 2 N n i IDF_i=log_2\frac{N}{n_i} IDFi=log2niN
计算词项 i i i在文档 j j j中的得分 T F i j × I D F i TF_{ij}\times IDF_i TFij×IDFi,具有最高得分的是刻画文档最好的词项。
例子
-
假定一个文档集由1000万篇文档组成。如果一个单词出现在 (a)40篇或(b)10000篇文档中,那么它的 I D F IDF IDF值是多少。
(a) I D F = l o g 2 1 0 7 40 IDF=log_2\dfrac{10^{7}}{40} IDF=log240107
(b) I D F = l o g 2 1 0 7 1 0 4 IDF=log_2\dfrac{10^{7}}{10^{4}} IDF=log2104107 -
假定一个文档集由1000万篇文档组成,词 w w w出现在其中的320篇文档中。在一篇具体的文档 d d d中,出现最多的词出现了15次,那么 w w w出现(a)1次或(b)5次情况下的 T F . I D F TF.IDF TF.IDF得分分别是多少?
(a) T F . I D F = 1 15 × l o g 2 1 0 7 320 TF.IDF=\dfrac{1}{15}\times log_2\dfrac{10^7}{320} TF.IDF=151×log2320107
(b) T F . I D F = 5 15 × l o g 2 1 0 7 320 TF.IDF=\dfrac{5}{15}\times log_2\dfrac{10^7}{320} TF.IDF=155×log2320107