ML 算法之TF-IDF

最新推荐文章于 2024-01-27 21:54:03 发布

雨点儿

最新推荐文章于 2024-01-27 21:54:03 发布

阅读量507

点赞数

分类专栏：机器学习文章标签：算法 TF-IDF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010378878/article/details/52304365

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

TF-IDF直观来说就是来确定一个词对某一篇文档的重要性，而这个重要性的核定还用基于一个语料库。

由于TF-IDF这样的一个功能，它就可以被用来提取一个文档中的关键字
当我们有了关键字之后，关键字就又可以代表一个文档，并用其来计算文档之间的相似度

TF-IDF的解释：

TF（term frequency）的计算：这个文档中的每个词出现的频率
IDF(inverse document frequency)：逆文档频率
本来每个词出现的次数越多那么说明这个词越重要（当然像‘的’，‘了’等这些词不算），但是遇到另一个问题，当我们遇到几个词它们的TF是一样的，那我们应该怎么决定谁是最重要的呢？
有一种情况，当一个词一般情况下被使用的比较少，但是在这篇文档中突然的多了起来，说明这个词对于这篇文章很重要
另一种情况，虽然一个词不是一个停用词但是它也是会经常用的到，说明这个词对于这篇文章相对于第一种情况来说没有那么重要。
这就需要我们来平衡他们的重要性，可以采取权重的方式，这就是IDF，它是在整个语料库上来衡量一个词的使用情况。

TF-IDF计算方式：

TF( term frequency ):这个词在这篇文档中出现的次数
- 它的计算方式不一定，TF=最简单的就是频次，
  当一个文档很长的时候我们可以考虑进行标准化：
- 例如是 TF=这个词在这篇文档中出现的次数/这篇文档的词的个数
- 或者是 TF=这个词在这个文档中出现的次数/这篇文档中频率最高的那个词的频次等等。
IDF（inverse document frequency）：出现在这个词语的文档数与整个语料库的文档数的比例关系。
- IDF=log(出现这个词的文档的个数/（整个语料库的文档数+1）)

最后，TF-IDF=TF*IDF

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。