TF-IDF:网页和某个查询的相关性

TF-IDF网页和某个查询的相关性

计算

TF:

关键词的频率 、单文本词汇频率 Term Frequency

衡量关键词在单个网页中出现的频率。

关键词的次数/单个网页的总字数(去掉应删除词(stopwords))。

IDF:

逆文本频率指数 Inverse document frequency

衡量一个词在整个文档集(所有网页)中的权重。

Log(D/Dw) ,一个关键词w在Dw个网页中出现过,D是全部网页数。Log=ln

一个查询的TF-IDF=TF1*IDF1+TF2*IDF2+……+TFN*IDFN,其中TF1为查询词1对网页的TF值,IDF1对一个查询词针对所有结果的IDF

一个单词的TF-IDF=TF*IDF

通过以上定义我们可以看到:

TF-IDF主要作用是衡量一个网页和某个查询的相关性,适用范围为搜索结果的排序。

TF只是衡量了关键词在一个网页中的出现频率。

IDF则衡量了关键词在整个文档集中的权重。

如果一个词在某一个网页中出现的频率高,它又在整个文档集中占有比较高的权重,显然,这个词重要,权重比较大。也就是说这个词的TF-IDF积比较大。

这样以来,单个网页与查询的相关性其实就是一个查询中的各关键词的TF-IDF的求和。

针对一个关键词的TF-IDF来说,可以它用来衡量关键词在单个网页中权重。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值