tf-idf关键词提取算法

最新推荐文章于 2024-09-14 17:51:43 发布

lo_single

最新推荐文章于 2024-09-14 17:51:43 发布

阅读量9.8k

点赞数 3

分类专栏：自然语言处理文章标签：算法自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lo_single/article/details/76039748

版权

tf-idf算法是衡量词语在文本中重要性的统计方法，用于信息提取和文本挖掘。它结合词频(tf)和逆文档频率(idf)来评估词的重要性。算法简单但未考虑语义信息，现代解决方案如Word2Vec通过词语向量化解决这个问题。

摘要由CSDN通过智能技术生成

tf-idf简介

在信息提取的应用场景之中，我们往往需要一些文本中的重要的词而不是文本中的所有词语来进行分析，即使原文本已经进行了去停用词的处理。
那么什么样的词算是文本中的关键词呢？一方面，这个词应该在文本中出现的次数比较多；另一方面，这个词应该不那么常见，若是这个词在很多文档中都有出现，这个词显然不能用来作为代表某个文档的重要词汇。一个合适的算法便是tf-idf算法。
tf-idf是term frequency–inverse document frequency的缩写。该算法用一种统计学的方法来衡量一个词语在文本中的重要程度，常被用于信息提取、文本挖掘等场景之中。该算法的核心便是计算一个文本中某个词语的tf值与idf值。

tf计算

tf是term frequency的缩写，指文本中的词频。衡量一个词语在文档中的出现频率有很多方法，最简单也足够有效的，便是直接计算这个词出现的次数，来作为这个词的tf值。

idf计算

idf是inverse document frequency的缩写，指“逆文档频率”，是一个用来衡量一个词常见程度的值。这个值的计算不应该基于单个文档，而应该考虑所有要进行分析的文档，来得出结果。
idf值的计算方法也有很多，这里仅提供一个常见的公式：

i d f = log

最低0.47元/天解锁文章

关注

3
点赞
踩
32

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。