【论文笔记】Large Search Model: Redefining Search Stack in the Era of LLMs

B站：阿里武

已于 2024-01-13 09:02:39 修改

阅读量166

点赞数

文章标签：论文阅读

于 2023-11-12 20:20:39 首次发布

本文链接：https://blog.csdn.net/qq874455953/article/details/134052489

版权

用LLM做搜索
文章地址：https://www.semanticscholar.org/reader/da889f319de50236676ed5a30d9054574280e1c2

摘要

现代搜索引擎是建立在不同组件的堆栈上的，包括查询理解、检索、多阶段排序和问答等。这些组件通常被独立地进行优化和部署。在本文中，我们引入了一个新颖的概念框架，称为大型搜索模型，通过将搜索任务与一个大型语言模型（LLM）统一起来，重新定义了传统的搜索堆栈。所有任务都被定义为自回归文本生成问题，通过使用自然语言提示来定制任务。这个提议的框架利用了LLM的强大的语言理解和推理能力，提供了提高搜索结果质量的潜力，同时简化了现有繁琐的搜索堆栈。为了证明这个框架的可行性，我们提出了一系列概念验证实验，并讨论了在实际搜索系统中实施这种方法可能面临的潜在挑战。

现状

目前传统搜索系统缺点

长尾不容易满足 long-tailed and complex information needs are still far from satisfactory

做法

在本文中，我们提出了一个被称为大型搜索模型的概念框架，从LLM的角度重新构想了传统的搜索堆栈。大型搜索模型是一个针对搜索领域进行定制的LLM。

除了第一阶段的检索之外，所有的信息检索任务都被定义为文本生成问题，并由一个单独的大型搜索模型处理。
给定一个用户查询和可能的数千个检索到的文档，大型搜索模型生成构成SERP的各种元素，包括排名的文档列表、文档摘要、直接答案等。自然语言提示作为定制模型行为的接口。
不同的任务由不同的提示模板指定，LLM的采用还允许执行未经明确训练的新任务。此外，关于多模态LLM的持续研究[

问题

由于文本生成的自回归性质，LLM的推理成本对于实时应用来说仍然过高。
如何在不降低质量的情况下进行高效的长上下文建模仍然是一个开放的问题。
生成的内容符合负责任的人工智能原则

效果

为了从实证角度验证我们的方法，我们使用开源的LLaMA模型实例化了大型搜索模型的简化版本，并对联合排序和答案生成任务进行了一些初步实验。结果表明，与强基线相比，我们训练的模型能够达到具有竞争力的性能

Large Search Model

在这里插入图片描述

3.1 信息检索任务的统一建模

在这里插入图片描述
从不同维度对三种范式进行比较。

“Fine-tuned Enc-Dec / Enc”指的是对小型编码器-解码器模型或仅编码器模型进行微调，这是目前普遍采用的方法。
我们提出的框架可以在IR任务上进行微调，需要更小的模型尺寸才能达到与GPT-4相当的性能。这导致推理延迟和成本的降低。

与当前主流的生产系统相比，这些系统为每个任务微调单独的小型模型，如T5或BERT，大型搜索模型的主要优势在于通过统一建模方法提高任务性能。这种预期的泛化能力的提升来自LLM的增加模型容量以及利用其他相关任务的知识的可能性。当然，这是以增加延迟和推理成本为代价的，这对于大规模部署LLM是一个重大挑战。与GPT-4等最新专有模型相比，我们提出的框架通过在领域特定数据上进行微调，提供了根据所需的搜索场景定制模型的灵活性，这在商业搜索引擎中通常是丰富的。表中呈现了全面的比较。

3.2 通过提示进行搜索定制化

设计了不同的prompt 让模型能理解搜索意图
例如文档排序就是这个prompt
在这里插入图片描述

3.3 长上下文建模

3.4 多模特大搜索模型（Multi-modal Large Search Model）

除了纯文本之外，多模态内容在网络上无处不在，包括图像、视频、音频和其他丰富的媒体格式。将这些信息纳入搜索模型中可以显著提高搜索结果的质量，并实现新的搜索体验。用户可以以混合模态提交查询，搜索引擎将以最合适的格式呈现结果。

3.5 实际的部署方案

推理效率

4. 概念验证实验

本节中，我们展示了一些概念验证实验，以展示我们提出的框架的潜力。具体而言，我们在MS MARCO段落排序数据集上对LLaMA-7B模型进行微调，用于两个任务：列表排序和检索增强的答案生成。这两个任务都被构建为文本生成问题，并且我们只计算目标标记的交叉熵损失
由于原始数据集没有提供列表排序的注释，我们在训练过程中使用了Wang等人的重新排序分数作为排序标签，同时始终将人工注释的正面段落放在第一位。对于答案生成任务，我们从gpt-35-turbo 中收集了40k个查询的输出作为基准答案。

输入段落是来自现成的密集检索器E5large-v2的前100个检索结果。

我们利用线性位置插值方法和跳跃编码将上下文长度从2k扩展到16k
进行了1epoch训练，批量大小为128，学习率为10^-5。

在这里插入图片描述

结论

本论文介绍了大型搜索模型框架，以重新定义LLM时代搜索系统的技术栈。我们认为，LLM的独特特性使得采用统一的建模方法来处理各种信息检索任务成为可能，并提供了更好的泛化能力，而不是对大量特定任务的小型编码器-解码器或仅编码器模型进行微调和部署。除了这一框架的巨大潜力，我们还讨论了一些新兴挑战，需要进一步研究，例如高推理成本、长上下文建模以及不对齐的潜在风险等。为了证明我们框架的可行性，进行了概念验证实验，尽管需要进行更大规模的评估以进行更全面的评估。