TF-IDF

词汇袋(BoW)通过计算文档中的词汇出现次数将文本转换为特征向量。它不考虑单词的重要性。Term frequency - Inverse document frequency (TFIDF)是基于Bag of Words (BoW)模型的,它包含了对文档中不太相关和比较相关的词的洞察力。一个词在文本中的重要性在信息检索中具有重要意义。
例如–如果你在搜索引擎上搜索一些东西,在TFIDF值的帮助下,搜索引擎可以给我们提供与我们的搜索最相关的文件。
我们将详细讨论TFIDF如何告诉我们哪个词更重要:
我们将首先分别研究术语频率(TF)和逆向文档频率(IDF),然后在最后将其合并。

术语频率(TF)

它是衡量一个词(w)在一个文档(d)中的频率。TF被定义为一个词在文档中出现的次数与文档中总词数的比率。公式中的分母项是为了规范化,因为所有的语料库文件都有不同的长度。
在这里插入图片描述

逆向文档频率(IDF)

它是对一个词的重要性的衡量。术语频率(TF)并不考虑单词的重要性。有些词,如 “的”、"和 "等,可能是最频繁出现的,但意义不大。IDF根据每个词在语料库D中的频率为其提供权重。
一个词(w)的IDF被定义为:
在这里插入图片描述

考虑以下语料库:

Train Document Set:
d1: The sky is blue.
d2: The sun is bright.
Test Document Set:
d3: The sun in the sky is bright.
d4: We can see the shining sun, the bright sun.

我们正在使用文档集中的文档d1和d2来创建训练文档集的索引词汇:

在这里插入图片描述
这里索引词汇用E(t)表示,其中t是术语。请注意,像 “is”、"the "这样的术语被忽略了,因为它们是经常重复的停顿词,给出的信息较少。
现在,我们可以将测试文档集转换为一个向量空间,向量中的每一个术语都被索引为我们的索引词汇表。例如,向量的第一个词代表我们词汇中的 “blue”,第二个词代表 “sun”,以此类推。现在我们要使用术语-频率,这意味着不仅仅是衡量术语在我们词汇中出现的次数(E(t))。我们可以把术语频率定义为计数函数。
在这里插入图片描述
这里的tf(t,d)返回的是术语t在文档d中出现了多少次。
当我们把测试文档集的d3和d4表示为向量时:
在这里插入图片描述

#import count vectorize and tfidf vectorise
from sklearn.feature_extraction.text impo
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值