（二）TF-IDF理论及实践

最新推荐文章于 2022-01-13 15:28:12 发布

菜的掉渣

最新推荐文章于 2022-01-13 15:28:12 发布

阅读量523

点赞数 1

本文链接：https://blog.csdn.net/qq_34476774/article/details/89059716

版权

向量化文本数据，通常也会选择TF-IDF这种方法。

1.理论：

如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"（Term Frequency，缩写为TF）统计。

首先，我们要去停用词。再计算词频。

但是问题出现了，如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

为了解决上述问题，采用最常见的词（"的"、"是"、"在"）给予最小的权重，较常见的词（"中国"）给予较小的权重，较少见的词（"蜜蜂"、"养殖"）给予较大的权重。这个权重叫做"逆文档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。

知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。

第一步，计算词频。

第二步，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

第三步，计算TF-IDF。

2.实践：

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())

print(X.shape)

输出如下：

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
(4, 9)

参考文献：

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

菜的掉渣

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（二）TF-IDF理论及实践

向量化文本数据，通常也会选择TF-IDF这种方法。1.理论：如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行"词频"（Term Frequency，缩写为TF）统计。首先，我们要去停用词。再计算词频。但是问题出现了，如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。为了解决上述问题，采用最常见的词（"的"、"...
复制链接

扫一扫