TF-IDF详解

最新推荐文章于 2024-07-15 22:53:43 发布

栽娃

最新推荐文章于 2024-07-15 22:53:43 发布

阅读量1.4k

点赞数 3

分类专栏： NLP python 文章标签： python nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/szn1043862535/article/details/120922191

版权

NLP 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

**TF-IDF=TF*IDF**

TF: Term Frequency 词频（当前文章中词语的频率）
IDF: Inverse Document Frequency 逆文本频率指数（在一个包含许多文档的文档库中，某个词语是否常见，IDF值越大越不常见）

(1)
假如一片文章有 1000 个词，

"中国” 这个词出现了 20 次，
"梦想" 这个词出现了 10 次，
"我" 这个词出现了 50次

那么：

TF(“中国”)=20/1000=0.02
TF(“梦想”)=10/1000=0.01
TF(“我”)=50/1000=0.05

(2)
有一个文件库，它是用来求IDF用的，文件库包含了5000个文档
在这5000个文档中，

包含 “中国” 的文档数为 1000
包含 “梦想” 的文档数为 500
包含 “我” 的文档数为 2000

IDF =log(文档库中文档总数 / (包含该词文档数+1) )
加1是为了防止分母为0

IDF(“中国”）=log(5000/1001)=0.6985
IDF(“梦想”）=log(5000/501)=0.9991
IDF(“我”）=log(5000/2001)=0.3977

（3）

TF-IDF(“中国”)= TF(“中国”) * IDF(“中国”）=0.01397
TF-IDF(“梦想”)= 0.09991
TF-IDF(“我”)= 0.019885

如果某个词比较少见（IDF值较高），但是它在这篇文章中多次出现（TF值较高），那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。
从上面计算可以看出 TF-IDF(“梦想”)的值较高，可以把"梦想"作为这篇文章的关键词

部分内容摘自：https://blog.csdn.net/zhaomengszu/article/details/81452907

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。