信息检索笔记-完整搜索系统的评分计算

      前面我们给出了文档评分中词项权重计算的理论,并由此导出向量空间模型和基本余弦相似度评分算法。当然不少策略不会精确返回与查询相匹配的K篇文档,一些策略也可以推广到余弦相似度计算之外的其他场合中去。


快速评分算法以及排序

    前面介绍通过计算查询与文档的余弦相似度来给文档评分:

        

在上面这个公式中,我们对V(q),进行了一个归一化处理。例如查询q=[jealous gossip],归一化后为v(q)=[0.707 0.707]。其实我们没必要归一化,直接用[1 1]的查询向量,这样我们做向量乘积的时候就乘1,这个就不需要乘了,最后直接转换为加法。

     根据上面的分析计算出每篇文档的得分,然后利用TopK算法选出得分最高的K篇文档。如果我们每次都要计算N篇文档的分数,那么这个工作量很大,下面介绍一下简单的方法:

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值