![cd65e9b509a882108d00818126876d2b.png](https://i-blog.csdnimg.cn/blog_migrate/a22726115aee7f670bbe35fc054320f2.jpeg)
目录:
1.什么是关键词?
2.TF-IDF关键词提取算法
3.算法实现
1.什么是关键词?
关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。
关键词提取是文本挖掘领域一个很重要的部分,通过对文本提取的关键词可以窥探整个文本的主题思想,进一步应用于文本的推荐或文本的搜索。
常用的关键词提取算法:TF-IDF算法、TextRank算法
2.TF-IDF关键词提取算法
TF-IDF是关键词提取最基本、最简单易懂的方法。判断一个词再一篇文章中是否重要,一个最容易想到的衡量指标就是词频,重要的词往往在文章中出现的频率也非常高;但另一方面,不是出现次数越多的词就一定重要,因为有些词在各种文章中都频繁出现(例如:我们),那它的重要性肯定不如哪些只在某篇文章中频繁出现的词重要性强。从统计学的角度,就是给予那些不常见的词以较大的权重,而减少常见词的权重,最终得分较高的词语即为关键词。
TF和IDF计算公式如下: