【NLP】TF-IDF算法原理、代码

最新推荐文章于 2025-03-26 20:37:24 发布

凝眸伏笔

最新推荐文章于 2025-03-26 20:37:24 发布

阅读量1.5k

点赞数 1

分类专栏： nlp 文章标签：算法数据挖掘

本文链接：https://blog.csdn.net/pearl8899/article/details/115358863

版权

nlp 专栏收录该内容

24 篇文章

订阅专栏

1.什么是TF-IDF?

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，常用于挖掘文章中的关键词，而且算法简单高效，常被工业用于最开始的文本数据清洗。

TF-IDF有两层意思，一层是"词频"（Term Frequency，缩写为TF），另一层是"逆文档频率"（Inverse Document Frequency，缩写为IDF）。

专业名词：

停用词：“的”，“是”，“了”等，这些在文档中最常见但对结果毫无帮助、需要过滤掉的词，用TF可以统计到这些停用词并把它们过滤。当高频词过滤后就只需考虑剩下的有实际意义的词。

某一些词出现的次数相同时，IDF会给常见的词较小的权重，它的大小与一个词的常见程度成反比。

当有TF(词频)和IDF(逆文档频率)后，将这两个词相乘，就能得到一个词的TF-IDF的值。某个词在文章中的TF-IDF越大，那么一般而言这个词在这篇文章的重要性会越高，所以通过计算文章中各个词的TF-IDF，由大到小排序，排在最前面的几个词，就是该文章的关键词。

2.TF-IDF算法步骤

第一步，计算词频，考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

第二步，计算逆文档频率，这时，需要一个语料库（corpus），用来模拟语言的使用环境。

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF：

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

3.优缺点

优点：简单快速，容易理解。

缺点：是有时候用词频来衡量文章中的一个词的重要性不够全面，有时候重要的词出现的可能不够多，而且这种计算无法体现位置信息，无法体现词在上下文的重要性。如果要体现词的上下文结构，那么你可能需要使用word2vec算法来支持。

4.代码

直接调用sklearn中的方法。

demo:

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()

corpus = ["我 来到 北京 清华大学",  # 第一类文本切词后的结果，词之间以空格隔开
          "他 来到 了 网易 杭研 大厦",  # 第二类文本的切词结果
          "小明 硕士 毕业 与 中国 科学院",  # 第三类文本的切词结果
          "我 爱 北京 天安门"]  # 第四类文本的切词结果

result = tfidf.fit_transform(corpus).toarray()
print(result)
# 统计关键词
word = tfidf.get_feature_names()
print(word)
# 统计关键词出现次数，几句话对比几次
for k, v in tfidf.vocabulary_.items():
    print(k, v)
# 对比第i类文本的词语tf-idf权重
for i in range(len(result)):
    print('----------------------', i, '--------------------')
    for j in range(len(word)):
        print(word[j], result[i][j])

参考：

1.https://zhuanlan.zhihu.com/p/31197209

2.文本分类关键词获取：https://blog.csdn.net/liuchonge/article/details/72614524