深入理解搜索引擎-搜索召回

在这里插入图片描述

​你有没有想过,当我们在搜索框中输入关键词时,搜索引擎是如何确定返回哪些内容给你的?搜索引擎底层有一个巨大的索引库,返回的搜索结果跟你输入的关键词又有什么关系?今天我们就来讲讲搜索引擎中的召回。

召回是根据输入的query,能够高效的获取query相关的候选doc集合的过程。相关的doc如果不能被被召回,即使后面的粗排、精排做的再好也是徒劳无功。所以召回对于搜索引擎是非常重要的,决定了搜索引擎质量的上限

本文主要讲解两类召回算法,包含基于词的传统召回基于向量的语义召回

基于词的传统召回

基于词的召回底层实现基于倒排索引,在上一篇《索引技术》我们有讲到过,倒排索引如何建立以及它的索引结构,当用户输入query后,搜索引擎会进行query理解(具体流程可参考《详解query理解》)并分词,得到一个个独立的[Term1、Term2…TermN],根据这些词到倒排索引中进行查找Term所在的文档即完成了召回。拿之前的例子来讲,倒排索引如下:
在这里插入图片描述

如果用户输入“胡歌猫”,那么“胡歌”和“猫”分别会找出对应的倒排索引,“胡歌”对应的[1001,1002…],“猫”对应的是[1003]。那么就有人会问了,每个

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值