最通俗易懂的 tf idf (词频逆向文本频率)的解释


首先 tf * idf 的公式:
​​ 在这里插入图片描述
在这里插入图片描述
就问你头大不大
举个例子
如果你现在有一个菜谱, 其中一篇叫做西红柿炒鸡蛋, 其中最多的词叫做 鸡蛋, 其他词例如 西红柿, 糖, 水, 食用油等 …
​​
​​鸡蛋的这个词出现的次数是最高的, 所有词频也是最高的
即 TF鸡蛋 = c鸡蛋/c鸡蛋 == 1
西红柿的出现频率略低 为 TF西红柿 = c西红柿/c鸡蛋 = 0.8
所以 TF词频越高, 词越重要(鸡蛋在西红柿炒鸡蛋中很重要)
​​
​​现在我们假设菜谱中每一道菜中都含有鸡蛋
所以鸡蛋的逆向文本频率为 IDF鸡蛋 = log2(c所有菜谱/c含有鸡蛋的菜谱) = log2(1) == 0
说明如果每一篇菜谱中都出现鸡蛋, 那鸡蛋在菜谱中就不是什么特殊的东西, 没有特征性
​​
​​但是如果你在一本100页高等数学中发现了一篇含有鸡蛋这个词
那么 IDF鸡蛋 = log2(c高等数学 / c含有鸡蛋的片章) = log2(100) = 10
所以鸡蛋在高等数学的IDF就为10, 还是很重要的因为高等数学中只有一篇有鸡蛋这个词
​​
​​最后我们把菜谱中 鸡蛋在文本出现的频率, 和含有鸡蛋这个词的篇章在整个菜谱中出现的逆频率相乘, 就得到了 鸡蛋的 TF IDF
​​
​​TFIDF鸡蛋 = TF鸡蛋 * IDF鸡蛋

总结一下: 如果我们想在一篇文档中判断某一个词是否重要, 我们希望这个词在该文件中尽可能的大, 所以为(正向)频率
如果我们希望判断一个词在整个文本中是否重要, 我们希望这个词在这整个文本尽可能的集中, 即 逆向频率尽可能的大

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值