NLP入门到实战（四）关键词权重计算算法

cv君

于 2020-06-11 10:31:27 发布

阅读量1.9w

点赞数 3

分类专栏： NLP从入门到实战机器学习深入浅出能忍受面试官对你说不行？？文章标签： python 机器学习自然语言处理算法

本文链接：https://blog.csdn.net/qq_46098574/article/details/106682517

版权

机器学习深入浅出同时被 3 个专栏收录

26 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

能忍受面试官对你说不行？？

24 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

NLP从入门到实战

9 篇文章

订阅专栏

TF-IDF是一种在信息检索和数据挖掘中用于衡量词的重要性的加权技术。文章介绍了TF-IDF的基本思想，TF-IDF的计算公式，并通过Python的gensim库展示了如何实践TF-IDF模型，提取文本关键词。还探讨了自己实现TF-IDF模型时需要注意的规范化步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TF-IDF介绍

关注不迷路！

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。

TFIDF的主要思想是：**如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。**TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本