我与语言处理 - [Today is TF-IDF] - [词频-逆文件频率]

最新推荐文章于 2022-05-04 17:38:32 发布

weixin_43409627

最新推荐文章于 2022-05-04 17:38:32 发布

阅读量261

点赞数 1

分类专栏：学习记录

本文链接：https://blog.csdn.net/weixin_43409627/article/details/84893710

版权

学习记录专栏收录该内容

23 篇文章 5 订阅

订阅专栏

下看一个简单的解释。最通俗易懂：

TF-IDF 要解决的问题，如何衡量一个关键字在文章中的重要性

总起

　　TF-IDF，理解起来相当简单，他实际上就是TF*IDF，两个计算值的乘积，用来衡量一个词库中的词对每一篇文档的重要程度。下面我们分开来讲这两个值，TF和IDF。

　　TF，是Term Frequency的缩写，就是某个关键字出现的频率，具体来讲，就是词库中的某个词在当前文章中出现的频率。那么我们可以写出它的计算公式：

　　其中：

　　　　TF(i,j)：关键词j在文档i中的出现频率。

　　　　n(i,j)：关键词j在文档i中出现的次数。

　　比如，一篇文章一共100个词汇，其中“机器学习”一共出现10次，那么他的TF就是10/100=0.1。

　　这么看来好像仅仅是一个TF就能用来评估一个关键词的重要性（出现频率越高就越重要），其实不然，单纯使用TF来评估关键词的重要性忽略了常用词的干扰。常用词就是指那些文章中大量用到的，但是不能反映文章性质的那种词，比如：因为、所以、因此等等的连词，在英文文章里就体现为and、the、of等等的词。这些词往往拥有较高的TF，所以仅仅使用TF来考察一个词的关键性，是不够的。这里我们要引出IDF，来帮助我们解决这个问题。

IDF

　　IDF，英文全称：Inverse Document Frequency，即“反文档频率”。先看什么是文档频率，文档频率DF就是一个词在整个文库词典中出现的频率，就拿上一个例子来讲：一个文件集中有100篇文章，共有10篇文章包含“机器学习”这个词，那么它的文档频率就是10/100=0.1，反文档频率IDF就是这个值的倒数，即10。因此得出它的计算公式:

其中：

　　IDF(i)：词语i的反文档频率

　　|D|：语料库中的文件总数

　　|j:t(i)属于d(j)|出现词语i的文档总数

　　+1是为了防止分母变0。

　　于是这个TF*IDF就能用来评估一个词语的重要性。

　　还是用上面这个例子，我们来看看IDF是怎么消去常用词的干扰的。假设100篇文档有10000个词，研究某篇500词文章，“机器学习”出现了20次，“而且”出现了20次，那么他们的TF都是20/500=0.04。再来看IDF，对于语料库的100篇文章，每篇都出现了“而且”，因此它的IDF就是log1=0,他的TF*IDF=0。而“机器学习”出现了10篇，那么它的IDF就是log10=1,他的TF*IDF=0.04>0，显然“机器学习”比“而且”更加重要。

下面再往深处看一些：

词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）

逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是：如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

一个例子：

使用：

这里使用sklearn

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformer

corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]

CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵

get_feature_names()可看到所有文本的关键字
vocabulary_可看到所有文本的关键字和其位置
toarray()可看到词频矩阵的结果

vectorizer = CountVectorizer()
count = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())  
print(vectorizer.vocabulary_)
print(count.toarray())

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
[[0 1 1 1 0 0 1 0 1]
 [0 1 0 1 0 2 1 0 1]
 [1 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 1 0 1]]

TfidfTransformer是统计CountVectorizer中每个词语的tf-idf权值

transformer = TfidfTransformer()
tfidf_matrix = transformer.fit_transform(count)
print(tfidf_matrix.toarray())

[[ 0.          0.43877674  0.54197657  0.43877674  0.          0.
   0.35872874  0.          0.43877674]
 [ 0.          0.27230147  0.          0.27230147  0.          0.85322574
   0.22262429  0.          0.27230147]
 [ 0.55280532  0.          0.          0.          0.55280532  0.
   0.28847675  0.55280532  0.        ]
 [ 0.          0.43877674  0.54197657  0.43877674  0.          0.
   0.35872874  0.          0.43877674]]

TfidfVectorizer可以把CountVectorizer, TfidfTransformer合并起来，直接生成tfidf值

TfidfVectorizer的关键参数：

max_df：

这个给定特征可以应用在 tf-idf 矩阵中，用以描述单词在文档中的最高出现率。假设一个词（term）在 80% 的文档中都出现过了，那它也许（在剧情简介的语境里）只携带非常少信息。

min_df：

可以是一个整数（例如5）。意味着单词必须在 5 个以上的文档中出现才会被纳入考虑。设置为 0.2；即单词至少在 20% 的文档中出现。

ngram_range：

这个参数将用来观察一元模型（unigrams），二元模型（ bigrams）和三元模型（trigrams）。参考n元模型（n-grams）。

input：

'filename', 'file', 'content'

如果是'filename'，序列作为参数传递给拟合器，预计为文件名列表，这需要读取原始内容进行分析

如果是'file'，序列项目必须有一个”read“的方法（类似文件的对象），被调用作为获取内存中的字节数

否则，输入预计为序列串，或字节数据项都预计可直接进行分析。

stop_words：

'english', list, or None(default)

如果为english，用于英语内建的停用词列表

如果为list，该列表被假定为包含停用词，列表中的所有词都将从令牌中删除

如果None，不使用停用词。max_df可以被设置为范围[0.7, 1.0)的值，基于内部预料词频来自动检测和过滤停用词

sublinear_tf：

boolean， optional

应用线性缩放TF，例如，使用1+log(tf)覆盖tf

tfidf_vec = TfidfVectorizer() 
tfidf_matrix = tfidf_vec.fit_transform(corpus)
print(tfidf_vec.get_feature_names())
print(tfidf_vec.vocabulary_)

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}


print(tfidf_matrix.toarray())

[[ 0.          0.43877674  0.54197657  0.43877674  0.          0.
   0.35872874  0.          0.43877674]
 [ 0.          0.27230147  0.          0.27230147  0.          0.85322574
   0.22262429  0.          0.27230147]
 [ 0.55280532  0.          0.          0.          0.55280532  0.
   0.28847675  0.55280532  0.        ]
 [ 0.          0.43877674  0.54197657  0.43877674  0.          0.
   0.35872874  0.          0.43877674]]

weixin_43409627

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
我与语言处理 - [Today is TF-IDF] - [词频-逆文件频率]

下看一个简单的解释。最通俗易懂：TF-IDF 要解决的问题，如何衡量一个关键字在文章中的重要性总起　　TF-IDF，理解起来相当简单，他实际上就是TF*IDF，两个计算值的乘积，用来衡量一个词库中的词对每一篇文档的重要程度。下面我们分开来讲这两个值，TF和IDF。TF　　TF，是Term Frequency的缩写，就是某个关键字出现的频率，具体来讲，就是词库中的某个词在当前文...
复制链接

扫一扫