《数学之美》第11章 如何确定网页和查询的相关性

    由于商业搜索引擎已经有了大量的用户点击数据,因此,对搜索相关贡献最大的事根据用户对常见搜索点击网页的结果得到的概率模型。如今,影响搜索引擎质量的诸多因素,除了用户的点击数据之外,可以归纳为四大类:

        完备的索引。

        对网页质量的度量,比如PageRank。

        用户偏好。

        确定一个网页和某个查询的相关性的方法。

1 搜索关键词权重的科学度量TF—IDF

    度量网页和查询的相关性,有一个简单的办法,就是直接使用各个关键词在网页中出现的总频数。

    停止词:在度量相关性时不应考虑它们的频率。如:‘的’,‘是’,‘和’,‘中’,‘地’

    对每个词给一个权重,这个权重的设定必须满足两个条件:

        一个词预测主题的能力越强,权重越大,反之,权重越小。

        停止词的权重为零。

    在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse Document Frequency,缩写IDF),公式

其中D 是全部的网页数,是指一个关键词w在个网页出现过,越大,w的权重越小,反之亦然。

    相关性计算公式由词频的简单求和变成了加权求和,即:

    所谓的IDF的概念就是一个特定条件下关键词的概率分布的交叉熵。

2 TF—IDF的信息论依据

    一个查询中每一个关键词w的权重应该反映这个词对查询来讲提供了多少信息。一个简单的办法就是用每个词的信息量作为它的权重,即   

其中,N是整个语料库的大小,可以省略。故

    


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值