TF-IDF=TF*IDF
TF: Term Frequency 词频(当前文章中词语的频率)
IDF: Inverse Document Frequency 逆文本频率指数 (在一个包含许多文档的文档库中,某个词语是否常见,IDF值越大越不常见)
(1)
假如一片文章有 1000 个词,
- "中国” 这个词出现了 20 次,
- "梦想" 这个词出现了 10 次,
- "我" 这个词出现了 50次
那么:
- TF(“中国”)=20/1000=0.02
- TF(“梦想”)=10/1000=0.01
- TF(“我”)=50/1000=0.05
(2)
有一个文件库,它是用来求IDF用的,文件库包含了5000个文档
在这5000个文档中,
- 包含 “中国” 的文档数为 1000
- 包含 “梦想” 的文档数为 500
- 包含 “我” 的文档数为 2000
IDF =log(文档库中文档总数 / (包含该词文档数+1) )
加1是为了防止分母为0
- IDF(“中国”)=log(5000/1001)=0.6985
- IDF(“梦想”)=log(5000/501)=0.9991
- IDF(“我”)=log(5000/2001)=0.3977
(3)
- TF-IDF(“中国”)= TF(“中国”) * IDF(“中国”)=0.01397
- TF-IDF(“梦想”)= 0.09991
- TF-IDF(“我”)= 0.019885
如果某个词比较少见(IDF值较高),但是它在这篇文章中多次出现(TF值较高),那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。
从上面计算可以看出 TF-IDF(“梦想”)的值较高,可以把"梦想"作为这篇文章的关键词
部分内容摘自:https://blog.csdn.net/zhaomengszu/article/details/81452907