TF-IDF详解

TF-IDF=TF*IDF

TF: Term Frequency 词频(当前文章中词语的频率)
IDF: Inverse Document Frequency 逆文本频率指数 (在一个包含许多文档的文档库中,某个词语是否常见,IDF值越大越不常见

(1)
假如一片文章有 1000 个词,

  • "中国” 这个词出现了 20 次,
  • "梦想" 这个词出现了 10 次,
  • "我" 这个词出现了 50

那么:

  • TF(“中国”)=20/1000=0.02
  • TF(“梦想”)=10/1000=0.01
  • TF(“我”)=50/1000=0.05

(2)
有一个文件库,它是用来求IDF用的,文件库包含了5000个文档
在这5000个文档中,

  • 包含 “中国” 的文档数为 1000
  • 包含 “梦想” 的文档数为 500
  • 包含 “我” 的文档数为 2000

IDF =log(文档库中文档总数 / (包含该词文档数+1) )
加1是为了防止分母为0

  • IDF(“中国”)=log(5000/1001)=0.6985
  • IDF(“梦想”)=log(5000/501)=0.9991
  • IDF(“我”)=log(5000/2001)=0.3977

(3)

  • TF-IDF(“中国”)= TF(“中国”) * IDF(“中国”)=0.01397
  • TF-IDF(“梦想”)= 0.09991
  • TF-IDF(“我”)= 0.019885

如果某个词比较少见(IDF值较高),但是它在这篇文章中多次出现(TF值较高),那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。
从上面计算可以看出 TF-IDF(“梦想”)的值较高,可以把"梦想"作为这篇文章的关键词

部分内容摘自:https://blog.csdn.net/zhaomengszu/article/details/81452907

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值