前沿重器[54] | 聊聊搜索系统7:补充模块

前沿重器

栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。(算起来,专项启动已经是20年的事了!)

2023年文章合集发布了!在这里:又添十万字-CS的陋室2023年文章合集来袭

往期回顾

RAG在整个大模型技术栈里的重要性毋庸置疑,而在RAG中,除了大模型之外,另一个不可或缺的部分,就是搜索系统,大模型的正确、稳定、可控生成,离不开精准可靠的搜索系统,大量的实验中都有发现,在搜索系统足够准确的前提下,大模型的犯错情况会骤然下降,因此,更全面、系统地了解搜索系统将很重要。

听读者建议,像之前的对话系统一样(前沿重器[21-25] | 合集:两万字聊对话系统),我也会拆开揉碎地给大家讲解搜索系统目前业界比较常用的架构、技术方案,目前的计划是分为这几个模块讲解:

本期的内容是搜索的其他附加模块,重点讲几个和搜索有关的场景以及常见的解决方案。这篇文章比较轻松,都是一些概念和思路解释,只是补充说明一些可能会被忽略的内容。

  • 搜索引导。

  • 搜索广告。

  • 大模型。

搜索引导

搜索引导在很早之前我有讲过:前沿重器[12] | 美团搜索引导技术启示,这个内容比较完整的讲解,可以参考《美团机器学习实践》的8.3。

搜索引导是指在用户搜索过程中给用户提供引导的统称,具体可以分为3种,搜索前、搜索中、搜索后引导,3个的内部所用的技术因为信息不同所以具体的技术方案会有所不同。这个“引导”,简单的理解,就是给用户进行query推荐。

  • 搜索前,往往是根据用户的画像以及目前的新热内容进行推荐,常见的在搜索框下“猜你喜欢”、或者是预填在搜索框内的内容。

  • 搜索中,指搜索过程中,用户输入一半时,下方出现的推荐内容,主要是根据用户已经输入的内容进行预想。

  • 搜索后,指用户点击确定后,还给他推荐的一些相关的query。

6763821497d5a512f4f966374e50835d.png

搜索引导

下面展开聊一聊这3个内容的具体场景细节和常见技术,只是简单聊不会展开。

搜索前

搜索前引导是没什么先验信息的,因此更多是推荐性质的,再者搜索界面往往比较空,里面会放很多东西。主要思路如下:

  • 新、热信息,推荐常态了。

  • 根据用户画像进行推荐,就当做推荐系统来做。

  • 用户搜索历史。

搜索中

搜索过程中,用户已经输入了部分内容,此时的用户注意力基本聚焦在自己想输入的query上,所以这个时候没必要做太多复杂多样的工作,给出比较贴合目前用户输入内容的提示会比较好,主要思路如下:

  • 用前缀树等方式,基于前缀召回一些高度相关、高质量、高点击的内容。

  • 可以适当进行个性化。

  • 但是请注意,此处的时延要求很高,必须尽快出,卡顿的时间内用户可能已经输入很多内容,尤其是pc端web段。

搜索后

搜索后,又回到了类似搜索前的状态,但与之不同的是此时用户已经有用户query,所以可以结合用户query做一些额外的尝试:

  • 给出一些和用户query相似的句子,但检索出来的内容质量比较高(例如高有点率,即别的用户有点击的概率)。

  • 搜了这些query的用户还搜了XX,用这个思路来找回,类似协同过滤了。

这个搜索引导的任务会挺适合做一种训练,就是根据问题思考问题特点并提出特定技术方案的训练,整个产品快速理解产品需求、用户习惯等,这些分析和探索的思维模式,非常值得吸收,大家也可以循着我的思路再过一遍。

搜索广告

广告是现在互联网非常常见的模式,搜索广告应该也不少见。

c52abb3c540892f179807af1ed20648d.png

搜索广告目前需要考虑的内容:

  • 搜索广告和推荐广告,跟搜索和推荐的类似,搜索广告是需要结合用户query的,给出的内容大概率要和query比较相关。这个是核心点。

  • 相比搜索和推荐,广告本质是3方的权衡,用户、平台和广告方,而当考虑广告方收益后,用户的利益大概率要被一定程度牺牲。

  • 广告商要求精准投放,对特定用户投放才会有效,用户视角对相关的内容反感度也不会很高,因此在匹配度和精准度上,各方的目标还是相对一致的。

因此,在权衡全局利益下,搜索广告的整体思路如下:

  • 搜索广告考虑一定程度query相似度,否则投放质量和用户体验都会下降明显,所以query理解的相关工作仍旧需要做。

  • 广告物料肯定远不如用户生成或者已有文档的数量多,所以搜索广告在召回层的要求需要一定程度下降。

  • 精排和重排层,结合广告投放价值等进行综合排序。

大模型

大模型时代来临,大模型想必是大家关心的重点,所以我也单独拿出来说说自己的理解。大模型能助力搜索系统进行进一步提升,同时对于新的搜索系统,也很大程度降低早期启动时间。下面我分几个情况来讨论大模型在搜索中的应用情况。

  • 离线文档处理:大模型的核心优势是few-shot甚至zero-shot的高baseline能力,在文档处理内,需要对文档内进行特定的关键词、实体、摘要进行抽取,大模型是一个非常快速的方案。

  • query理解:用大模型来做分类、实体抽取之类的任务已经是不是一个困难的事了,至少能省去很多标注的成本,或者是通过大模型来做粗标,无论如何从这个角度来讲,算是一个启动捷径。另外,大模型来做query拓展,收益也不低(前沿重器[38] | 微软新文query2doc:用大模型做query检索拓展)。

  • 召回:召回层一般是直接做检索,在相似度上大模型的工作还需要探究,当然借助大模型做向量化的工作也不是没有,不过类似BGE-M3之类的操作,可能收益会比较高,直接用大模型的收益不如转为用大模型做拓展然后向量化。

  • 精排:大模型做精排在早期还是可以尝试的,不过到了后期,还是不如特征之类比较成熟的方式,特征的有机组合和迭代节奏上有优势,且上限也不低。大模型在多特征多信息的环境下还是有些难度,可能会吃不下或者理解不了。

总的来说,大模型在这里的应用有如下特点:

  • 有比较高的baseline,在数据匮乏,无法训练自有模型的时候,可以考虑大模型启动。

  • 但是到了后期,很多问题可以用小模型替代,效果和性能可能还能提升,成本下降。

这里再补充一个点,可能会有人问到RAG,这里可以看出,大模型和搜索系统是相辅相成互相帮助的关系了,大模型用在搜索系统里能对搜索系统产生正面作用,而反过来,搜索系统在RAG中能快速查出对大模型有用的信息。

小结

本文主要对系列内没提到但比较重要的部分进行补充说明,主要讲的是搜索引导、搜索广告、大模型相关部分。

71ed47c6d38e59ab2e10a7c9d0d12a79.png

  • 8
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值