TF-IDF算法进行关键词提取(Python迭代器、sorted、lambda、filter)! |
文章目录
一. 关键词
- 关键词 是指能反映文本主题或者意思的词语,如论文中的Keyword字段。关键词提取是文本挖掘领域一个很重要的部分,通过对文本提取的关键词可以窥探整个文本的主题思想,进一步应用于文本的推荐或文本的搜索。
- 常用的关键词提取算法:
TF-IDF算法、TextRank算法。
二. TF-IDF关键词提取算法
- TF-IDF(Term frequency-inverse document frequency) 是关键词提取最基本、最简单易懂的方法。判断一个词再一篇文章中是否重要,一个最容易想到的衡量指标就是 词频(TF),重要的词往往在文章中出现的频率也非常高&#x