TF-IDF

最新推荐文章于 2021-01-26 22:35:29 发布

荒山之夜

最新推荐文章于 2021-01-26 22:35:29 发布

阅读量190

点赞数

分类专栏： NLP复习文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29134801/article/details/93203795

版权

NLP复习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

tf-idf 是一个NLP任务中常用的工具。

其主要思想是，在一个语料库中的一篇文章里的某一个词。

它越是在语料库出现的次数少而在该文章中出现的次数多，我们就可以认为这个词对于文章来说，很重要。

那么TF代表的意思是“词频”：某个词在文章中出现次数/文章总词数
同样IDF代表的意思是“逆文档频率”：IDF = log(语料库的文档总数/包含该词的文档总数+1)

一般TF-IDF越大，则代表这个词越重要，它的排位越靠前。

TF-idf 算法简单而强大，它最大的问题是，只是从词频的角度考量词的重要性。
如果一个词的词频比较低，但它代表着重要的意思，很可能会被排到更后面的位置。如此，效果不会很好。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。