1、 对于一个单词来说,文档向量中的一个维度就是该文档中的一个单词,其值就是该词在文档中出现的次数。这称之为TF(Term Frequency)权重。
2、 设一个文档中的单词的集合为:WD = {w1, w2, w3 ….. wn},又设单词集中单词的频率为TF={f1,f2, f3…..fn}
文档频率DF是有某个单词出现的文档个数,单词在文档中出现的次数并不计入文档频率。那么一个单词的逆文档频率为:IDFi = 1 / DFi
因为IDF会很小而使乘积后所得的权重值过小。这种情况下,最好乘以一个常数来归一化IDF值。所以:IDFi = N / DFi
3、 那么向量中单词wi的权重Wi= TFi * IDFi = TFi* (N/DFi)
4、 因为IDFi= N / DFi 会掩盖在最终的单词权重中TF的影响,于是:
Wi = TFi * IDFi = TFi * log(N/DFi)
5、 为了归一化TF,所以TFi,j =fi,j / max(fk,j),其中fi,j 是单词wi 在文档j中出现的频数;max(fk,j) 是单词在文档j中出现的频数最大值;
6、 所以:Wi= TFi * IDFi = TFi* log(N/DFi) = fi,j / max(fk,j) * log(N/DFi)