网页和查询的相关性度量—读数学之美

 

基本方法:关键词出现频率

对查询切词,网页中包含的词越多,就越相关。考虑到长文本比短文本有优势,根据网页的长度对关键词出现的次数进行归一化:关键词的频率(term frequency)=关键词的次数/网页总字数。

 

举例:

一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询“原子能的应用”相关性的一个简单的度量。

 

概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1,TF2, ..., TFN。 (TF: term frequency)。那么,这个查询和该网页的相关性就是:

TF1 + TF2 + ... + TFN。

 

改进1:关键词赋权

1.去停用词后再评估

2.给分词后的term赋权:一个词预测主题的能力越强,权重越高,例如:“原子能”能帮助理解主题;停用词的权重为0。

 

改进2:逆文本频率

假定一个关键词 w 在 Dw个网页中出现过,那么 Dw 越大,w的权重越小。

逆文本频率指数(Inverse  document frequency 缩写为IDF):log(D/Dw)其中D是全部网页数。

 

举例:

假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10 亿/10 亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)=0.7

 

使用TF/IDF计算相关性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值