TF-IDF 算法
TF(归一化后的词频)计算公式:
T F = f r e q ( i , j ) m a x l e n ( j ) TF=\frac{freq(i,j)}{maxlen(j)} TF=maxlen(j)freq(i,j)
f r e q ( i , j ) freq(i,j) freq(i,j)为词 w ( i ) w(i) w(i)在文档 d ( j ) d(j) d(j)中出现频率, m a x l e n ( j ) maxlen(j) maxlen(j)为 d ( j ) d(j) d(j)长度, d ( i ) d(i) d(i)是文档集合 D D D的一个子集 d ( 1 ) , d ( 2 ) , d ( 3 ) . . . d ( n ) {d(1),d(2),d(3)...d(n)} d(1),d(2),d(3)...d(n)
TF说明一个词在某个文档中出现的次数越高,TF的值会越大
算法应用过程中要利用停用词词典去掉无关的词
I D F IDF IDF是逆文档频率
I D F = l o g ( l e n ( D ) n ( i ) ) IDF=log(\frac{len(D)}{n(i)}) IDF=log(n(i)len(D))
l e n ( D ) len(D) len(D)表示文档集合 D D D中文档的总数, n ( i ) n(i) n(i)表示含有 w ( i ) w(i) w(i)这个词的文档的数量
I
D
F
IDF
IDF用来降低通用词的词频
I
D
F
IDF
IDF公式说明含有某个词的文档越多,这个词的
I
D
F
IDF
IDF会越小
T F − I D F TF-IDF TF−IDF值
T F − I D F = T F ∗ I D F TF-IDF=TF * IDF TF−IDF=TF∗IDF
T
F
−
I
D
F
TF-IDF
TF−IDF公式表达来一次词的出现频率,并且在一定程度上降低了某些高频词的影响
利用
T
F
−
I
D
F
TF-IDF
TF−IDF组成的向量表示一个文档,可以再根据余弦相识度来计算文档之间的相关性