词语在文档中的重要性 -- TF-IDF算法

1、  对于一个单词来说,文档向量中的一个维度就是该文档中的一个单词,其值就是该词在文档中出现的次数。这称之为TF(Term Frequency)权重。

2、   设一个文档中的单词的集合为:WD = {w1, w2, w3 ….. wn},又设单词集中单词的频率为TF={f1,f2, f3…..fn}

文档频率DF是有某个单词出现的文档个数,单词在文档中出现的次数并不计入文档频率。那么一个单词的逆文档频率为:IDFi = 1 / DFi

因为IDF会很小而使乘积后所得的权重值过小。这种情况下,最好乘以一个常数来归一化IDF值。所以:IDFi = N / DFi

3、  那么向量中单词wi的权重Wi= TFi * IDF= TFi* (N/DFi)

4、  因为IDFi= N / DFi 会掩盖在最终的单词权重中TF的影响,于是:

Wi = TFi * IDF= TFi * log(N/DFi)

5、  为了归一化TF,所以TFi,j  =fi,j  / max(fk,j),其中fi,j 是单词wi 在文档j中出现的频数;max(fk,j) 是单词在文档j中出现的频数最大值;

6、  所以:Wi= TFi * IDF= TFi* log(N/DFi) =  fi,j  / max(fk,j) * log(N/DFi)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值