【论文解读|大模型·信息检索】·LLM4IR | Large Language Models for Information Retrieval: A Survey

本文第一版本是2023年8月发布在arvix上的，截止目前已经更新至24年9月v4版本。作者是Yutao Zhu（朱余韬）, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng Haonan Chen, Zheng Liu, Zhicheng Dou, and Ji-Rong Wen。基本都来自中国人民大学。

本文是一篇关于大语言模型（LLMs）在信息检索（IR）领域应用的综述研究，全面探讨了LLMs如何通过查询重写、检索、重排和阅读等模块提升IR系统的性能，并分析了LLMs作为搜索代理的潜力。其影响力体现在为IR领域提供了新的研究方向和技术思路，尤其是在利用LLMs的强大语言理解和生成能力来解决传统IR系统面临的挑战方面。此外，本文还强调了参数高效微调（PEFT）和上下文学习（ICL）等技术在LLMs中的应用，这些技术在减少训练成本和提高模型适应性方面具有重要意义。

文章在开篇也画了技术路线（v4版本更新），对于Rewriter Retriever Reranker Reader这些策略的总结提炼也是非常到位。

同时作者也公布了其调查资料在github上： https://github.com/RUC-NLPIR/LLM4IR-Survey

启发：

文章对RAG方向的文章是一种启发，对Related Works也有所帮助。文章特别对以下方向有相当大的提示作用

知识融合与领域适应：未来研究可以探索更有效的知识融合方法，使LLMs更好地利用结构化和非结构化知识，以提高模型在特定领域的适应性和检索效果。
高效模型架构与训练方法：研究更高效的模型架构和训练方法，以降低LLMs在IR应用中的计算成本。例如，参数高效微调（PEFT）技术已经在实践中展现出极高的效率，可以在极低的资源占用下达到媲美全参微调的效果。
模型可解释性与可控性：提高LLMs在IR任务中的可解释性和可控性，增强模型的可信度。例如，上下文学习（ICL）技术通过将训练集压缩为单任务向量，为LLMs的执行过程提供了理论阐述，未来工作可能会侧重于任务向量的构建和使用。
多模态与跨领域应用：探索LLMs与其他AI技术（如多模态、强化学习等）在IR中的结合应用。例如，智能体信息检索（Agentic IR）作为一种新兴范式，通过LLM智能体的能力重新定义了信息访问的方式。

正文解读：

摘要

作为信息获取的主要手段，信息检索 (IR) 系统，例如搜索引擎，已将自己整合到我们的日常生活中。这些系统也可以作为对话、问答和推荐系统的组成部分。IR 的轨迹已经从基于术语的方法的起源动态演变为它与高级神经模型的集成。虽然神经模型擅长捕捉复杂的上下文信号和语义细微差别，从而重塑 IR 景观，但它们仍然面临数据稀缺、可解释性以及生成上下文合理但可能不准确的响应等挑战。这种演变需要结合传统方法（例如具有快速响应的基于术语的稀疏检索方法）和现代神经架构（例如具有强大语言理解能力的语言模型）。同时，由 ChatGPT 和 GPT-4 为代表的大型语言模型 (LLM) 的出现彻底改变了自然语言处理，因为它们具有出色的语言理解、生成、泛化和推理能力。因此，最近的研究试图利用llm来改进IR系统。鉴于本研究轨迹的快速发展，有必要整合现有方法并通过全面的概述提供细微的见解。在本次调查中，我们深入研究了 LLM 和 IR 系统的融合，包括查询重写器、检索器、重新排序器和阅读器等关键方面。此外，在这个扩展领域内，我们探索了有希望的方向，例如搜索代理。

引介

作者从信息检索（IR）系统的网络引入，说明了信息检索的重要性。1.IR 系统在检索对用户输入话语的适当响应方面起着至关重要的作用 2.用于选择对有效解决用户问题至关重要的相关线索 3.在图像搜索引擎擅长返回与用户输入查询对齐的图像。

IR的发展轨迹也从其搜索变到了神经模型的集成，现在的发展努力方向是平衡传统的高效优势（BM25算法）和现代神经架构带来的显著能力（尖端主要是LLM和Transformer的神经网络）。NewBing是2023年最先发布RAG+LLM应用的搜索产品。信息检索系统的核心是检索，需要从多媒体信息里找到和用户需求相关的内容。作者聚焦在文本检索系统中，query和检索doc的相关性由两者的匹配分衡量。IR系统的效率非常重要，为了提升用户体验，常常从上游（查询query改写）和下游（排序、Reading）两个方便增强检索性能。

上图是作者总结的目前的RAG的技术路线，

IR步骤可以被划分成query改写、检索、重排序和reader四个阶段，如上图所示，这四个阶段都可以应用LLM。

query改写：query改写通过修改或重写用户的输入query，可以改善query的准确度和表示能力。这一步骤的主流方法是query扩写。

Retriever：主要用于查询doc的召回。检索阶段早期使用的词袋模型鲁棒、高效，随着神经网络IR的兴起，流行做法变成了抽查询query和候选doc中提取高维稠密表示并计算内积作为相关性打分的方式。

Reranker：检索阶段平衡了效果和效率，重排序阶段主要保障检索的质量，会采用比传统向量内积更复杂的方法，以得到更好的排序效果。此外，重排序阶段还需要设计特定的策略，来满足不同用户的需求，比如个性化和多样性需求等。

Reader：reader是随着大预言模型快速发展起来的一个模块，它实时理解用户意图，并根据检索结果动态生成响应。相较于传统的给用户呈现一个候选文档列表的方式，reader模块以人类获取信息的方式组织检索结果。为了提高结果的可信度，将参考文献集成到生成的结果中是该模块的一种有效技术。

背景

信息检索（Information Retrieval）

发展历程：
- 早期模型：早期的IR系统基于布尔逻辑和“词袋模型”，通过关键词匹配来检索文档。向量空间模型（Vector Space Model）进一步引入了词向量表示，通过计算查询向量和文档向量之间的相似性来评估相关性。
- 统计语言模型：随后，统计语言模型被引入，用于估计词的出现概率并结合上下文信息，从而更准确地评估相关性。
- 神经IR范式：近年来，神经网络模型因其强大的表示能力而被广泛应用于IR，能够捕捉查询和文档之间的语义关系，显著提升检索性能。
面临的挑战：尽管神经IR模型取得了显著进展，但仍面临一些挑战，如数据稀缺、可解释性不足以及可能生成看似合理但不准确的响应。此外，如何平衡传统方法（如BM25算法的高效率）与现代神经架构（如语义理解能力）之间的关系，也是IR领域持续探索的方向。

大语言模型（Large Language Models）

定义与能力：大语言模型（LLMs）是基于Transformer架构的预训练语言模型，经过在大规模文本数据上的广泛预训练，具备了卓越的语言理解、生成、泛化和推理能力。这些模型通常包含超过10亿个参数，能够生成更符合人类意图的自然语言响应。
应用方法：
- 上下文学习（In-Context Learning, ICL）：LLMs的一种新兴能力，允许模型根据输入上下文直接生成答案，而无需依赖于预训练知识。这种方法仅需要将任务描述和示例以自然语言形式输入模型，无需对模型参数进行微调。
- 参数高效微调（Parameter-efficient Fine-tuning）：旨在减少可训练参数数量，同时保持满意的性能。例如，LoRA（Low-Rank Adaptation）是一种广泛应用于开源LLMs（如LLaMA和BLOOM）的方法，用于实现参数高效微调。

QUERY重写

查询重写器作为搜索引擎的基本预处理组件，通过细化初始查询来提高检索系统的准确性。这种机制，也称为查询扩展或重构，在搜索引擎操作中占有关键地位。传统查询重写策略依赖词汇知识库和伪相关反馈，但受限于知识模型能力不足和匹配噪声，而大型语言模型在预训练数据集上展现出强大的知识和语言理解能力，成为查询重写的理想资源。

场景

LLMs在两种场景中均展现出强大的语言生成和理解能力，显著提升查询重写的语义相关性和检索效果。

Ad-hoc检索：LLMs通过生成语义相关的查询扩展或重写，弥补用户查询与文档之间的语义差距，替代传统基于词汇的方法。
对话式检索：LLMs根据对话历史生成上下文相关的查询，处理指代消解问题，生成更精准的查询以适应多轮对话场景。

格式

强调了LLMs在查询重写中可以生成多种格式的查询，包括问题、关键词和答案补充段落。这些格式根据下游检索系统的具体需求而定，旨在提高检索系统的语义匹配能力和检索效果。

问题形式（Questions）
将原始查询重写为类似的问题形式，使查询更精确、更易于理解，同时更符合用户的实际意图。例如，通过生成与原始查询相关的变体问题，帮助检索系统更好地捕捉语义。
关键词形式（Keywords）
将查询转换为关键词或概念，适用于下游使用稀疏检索器（如BM25）的场景。LLMs能够生成高质量的关键词，帮助提高检索效率。
答案补充段落形式（Answer-Incorporated Passages）
利用LLMs生成与查询相关的详细答案，然后从语料库中检索与这些答案相关的段落。这种方法通过生成的答案作为桥梁，缩小短查询与长文档之间的语义差距，提高检索的准确性。

方法

讨论了LLMs在查询重写中的三种主要方法：提示（Prompting）、监督微调（Supervised Fine-tuning）和强化学习（Reinforcement Learning）。

提示（Prompting）
提示方法通过向LLMs提供特定的指令或上下文来引导其输出，具有灵活性和可解释性。根据提示的复杂程度，可以分为零样本提示（Zero-shot）、少样本提示（Few-shot）和链式思考提示（Chain-of-Thought）。零样本提示直接利用LLMs的预训练知识生成文本；少样本提示通过提供少量示例来指导模型；链式思考提示则通过逐步推理的方式引导模型输出。
监督微调（Supervised Fine-tuning）
监督微调通过在特定任务的数据集上进一步训练LLMs，使其更好地适应查询重写任务。这种方法需要构建合适的训练数据集，但可以显著提升模型在特定任务上的性能。
强化学习（Reinforcement Learning）
强化学习利用下游任务的反馈信号（如排名模型的评分）来优化查询重写器的性能。这种方法可以使查询重写器的目标更贴近下游任务的需求，从而提高整体检索系统的性能。

局限性

包括概念漂移和查询扩展对检索性能的复杂影响。这表明在实际应用中，需要谨慎平衡LLMs的生成能力和检索系统的具体需求，以确保查询重写能够真正提升检索效果。

概念漂移（Concept Drift）：由于其庞大的知识库和生成详细内容的倾向，可能会引入与原始查询无关的信息。这种概念漂移可能导致查询重写结果偏离用户的真实意图，从而降低检索效率。
检索性能与扩展效果之间：近期研究发现，对检索性能的影响存在显著的负相关性。具体来说，对于较弱的检索模型，查询扩展可能会提升性能；但对于已经较强的模型，扩展可能会引入噪声，反而降低检索效果。

RETRIEVER

利用大语言模型（LLMs）生成搜索数据以提升检索性能的方法。这一部分主要分为两个方向：搜索数据精炼（Search Data Refinement）和训练数据增强（Training Data Augmentation）。

检索到的内容进行后处理

4.1.1 搜索数据精炼

搜索数据精炼的目标是通过LLMs改善输入查询和文档的质量，使其更符合检索系统的需要。具体方法包括：

查询重写（Query Rewriting）：利用LLMs将模糊或短小的用户查询改写为更精确、更详细的表达形式，以更好地反映用户的真实意图。例如，通过生成更具体的查询关键词或问题形式，提高检索的准确性。
文档精炼（Document Refinement）：对文档内容进行提炼或改写，去除冗余信息，突出关键内容，从而增强检索模型从文档中提取相关信号的能力。虽然目前的研究主要集中在查询重写上，但文档精炼也是一个值得探索的方向。

4.1.2 训练数据增强

训练数据增强旨在解决检索模型训练中数据不足的问题，特别是对于零样本（zero-shot）或少样本（few-shot）学习场景。LLMs可以通过以下几种方式生成合成训练数据：

伪查询生成（Pseudo Query Generation）：给定大量文档，利用LLMs生成与这些文档相关的伪查询。例如，inPairs方法通过展示少量真实查询-文档对作为示例，让LLMs为给定文档生成可能相关的查询。这种方法可以快速扩充训练数据集，支持检索模型在特定目标领域的微调。
相关性标签生成（Relevance Label Generation）：在某些下游任务中，如问答系统，已经有了足够的问题集合，但缺乏将这些问题与支持证据段落相关联的相关性标签。LLMs可以用于生成这些标签，从而扩充检索模型的训练语料库。例如，ART方法通过计算问题在检索到的段落上的生成概率，并将这些概率作为软标签，用于训练检索器。
完整示例生成（Complete Example Generation）：直接利用LLMs生成合成的查询和文档对，以提供多样化的训练样本。这种方法通过两阶段生成流程，首先让LLMs构思各种检索任务，然后生成对应的“（查询，正文档，负文档）”三元组，用于优化密集检索器。

LLM驱动的检索方法

在检索器中的应用，不仅通过提升现有密集检索器的性能和引入新能力，还通过生成式检索器提供了一种全新的检索范式。这些方法在提升检索准确性的同时，也展示了LLMs在信息检索中的巨大潜力。

4.2.1 密集检索器（Dense Retriever）

LLMs在密集检索中的应用主要体现在两个方面：提升现有方法的性能和引入新的能力。

提升现有方法的性能：通过使用更大的LLMs（如LLaMA、Phi等），密集检索器在领域内（in-domain）和领域外（out-of-domain）的准确性都得到了显著提升。例如，RepLLaMA通过在开源LLMs（LLaMA-2-7B）上进行微调，成为了当前性能领先的方法。
引入新能力：LLMs支持指令跟随（instruction following）和上下文学习（in-context learning），能够根据用户需求执行不同的语义匹配任务。

4.2.2 生成式检索器（Generative Retriever）

生成式检索器通过直接生成与查询相关的文档标识符（DocIDs）来检索文档，从而避免了传统“索引-检索-排序”范式中的问题。

微调LLMs：例如DSI方法通过在检索数据集上微调T5模型，直接从查询生成DocIDs。
提示LLMs：例如LLM-URL方法通过少量上下文示例，让LLMs直接生成与查询相关的URL。

局限

响应速度与模型规模：LLMs通常具有庞大的参数量，这导致其推理速度较慢，难以满足检索系统对快速响应的需求。例如，搜索引擎需要在短时间内返回结果，而LLMs的高延迟可能成为瓶颈。

生成内容与真实查询的匹配问题：生成的文本可能与真实用户查询存在偏差。尽管LLMs能够生成高质量的文本，但其生成的查询或文档可能与真实场景中的用户行为不完全一致

领域适应性不足：通常缺乏特定领域的知识，需要在特定任务的数据集上进行微调才能有效应用于下游任务。然而，微调大量参数的LLMs在计算资源和时间成本上都面临挑战。

多模态支持不足：当前的LLM增强型检索系统主要支持基于文本的内容检索，而网页通常包含多模态信息

RERANKER

信息检索系统中，重排序器（Reranker）作为第二阶段的文档过滤器，旨在根据查询与文档的相关性重新排序由检索器（如BM25）初步检索到的文档列表。基于大语言模型的重排序方法可分为三种范式：利用LLM作为监督式重排序器、非监督式重排序器，以及利用LLM进行训练数据增强。

LLMs作为有监督的Reranker

详细介绍了如何利用LLMs作为监督式重排序器，包括编码器型、编码器-解码器型和解码器型三种架构。这些方法通过不同的模型架构和训练策略，展示了LLMs在文档重排序任务中的潜力和多样性。然而，这些方法也面临着计算资源需求高、训练数据需求大等挑战。

5.1.1 编码器型（Encoder-only）

方法：使用基于编码器的预训练语言模型（如BERT）对查询-文档对进行编码，并通过线性层计算相关性分数。
典型方法：如monoBERT，将查询和文档拼接为一个序列（例如[CLS] query [SEP] document [SEP]），通过模型的[CLS]表示计算相关性分数。
特点：这种方法简单且有效，但通常受限于模型的编码能力。

5.1.2 编码器-解码器型（Encoder-Decoder）

方法：将重排序任务视为一个生成任务，利用编码器-解码器架构的模型（如T5）生成与查询相关的文档标识符。
典型方法：
- monoT5：将查询和文档输入模型，生成一个分类标记（如true或false），表示文档是否与查询相关。
- DuoT5：输入一个查询和两个文档，模型生成一个标记，表示哪个文档与查询更相关。
- RankT5：直接生成一个数值相关性分数，而不是分类标记，使用排名损失（如RankNet）进行优化。
特点：这种方法能够更好地捕捉查询和文档之间的复杂语义关系，但通常需要更多的计算资源。

5.1.3 解码器型（Decoder-only）

方法：使用仅解码器架构的模型（如LLaMA）进行重排序，通过格式化查询-文档对并利用模型的最后一步输出来计算相关性。
典型方法：
- RankLLaMA：将查询和文档格式化为提示（如query: {query} document: {document} [EOS]），通过最后一步的表示计算相关性。
- TSARankLLM：通过两阶段训练，先进行无监督预训练，再进行有监督微调，以提高模型的排名性能。
特点：这种方法利用了LLMs的强大生成能力，但通常需要更多的训练数据和计算资源。

LLMs作为无监督的Reranker

探讨了利用LLMs作为无监督重排序器的方法，包括点对点、列表式和成对式方法。这些方法展示了LLMs在文档重排序任务中的潜力，但也面临效率和提示设计等挑战。未来的研究方向可能包括优化提示设计、提高排序效率以及探索更高效的模型架构。

5.2.1 点对点方法（Pointwise Methods）

点对点方法关注于评估单个文档与查询的相关性，主要分为两种类型：相关性生成（Relevance Generation）和查询生成（Query Generation）。

相关性生成
- 方法：给定查询和文档，LLMs生成一个二元标签（如“是”或“否”）来判断文档是否与查询相关。
- 公式：通过计算“是”和“否”的对数似然，并使用softmax函数计算相关性分数：
  f(q,d)=exp(SY)+exp(SN)exp(SY)
  其中，SY和SN分别是“是”和“否”的对数似然。
- 特点：这种方法简单且有效，但对LLMs的提示设计非常敏感。例如，使用更细粒度的标签（如“高度相关”、“部分相关”和“不相关”）可以提高性能。
查询生成
- 方法：基于文档生成查询，然后通过计算生成查询的对数似然来评估文档的相关性。相关性分数为：
  score=∣q∣1i∑logp(qi∣q<i,d,P)
  其中，∣q∣是查询的长度，d是文档，P是提示。
- 特点：这种方法依赖于LLMs的生成能力，对提示的选择非常敏感。例如，T0等模型在零样本（zero-shot）场景下表现出色。

5.2.2 列表式方法（Listwise Methods）

列表式方法的目标是直接对文档列表进行排序，而不是单独评估每个文档的相关性。

方法：将查询和文档列表作为输入，LLMs生成排序后的文档标识符。由于LLMs的输入长度有限，通常采用滑动窗口策略来处理较长的文档列表。
特点：
- 优点：能够捕捉文档之间的相对顺序，适用于需要全局排序的任务。
- 缺点：对文档的初始顺序非常敏感，且滑动窗口策略限制了并行化，导致效率较低。
改进方法：
- 排列自一致性（Permutation Self-Consistency）：通过打乱文档顺序并聚合结果，减少位置偏差。
- 锦标赛机制（Tournament Mechanism）：通过智能分组和锦标赛式评分系统，提高排序效率。

5.2.3 成对式方法（Pairwise Methods）

成对式方法通过比较文档对来确定它们与查询的相关性。

方法：给定查询和文档对，LLMs生成更相关的文档标识符。通过聚合所有文档对的比较结果，得到最终的排序。
特点：
- 优点：在较小的模型上（如Flan-UL2）表现出色，能够有效利用LLMs的生成能力。
- 缺点：计算复杂度较高，尤其是当文档数量较多时。
改进方法：
- 集合式方法（Setwise Approach）：通过比较一组文档来选择最相关的文档，减少比较次数，提高效率。

大模型用以训练数据增强

探讨了利用LLMs进行训练数据增强的方法，展示了其在提升重排序器性能方面的潜力。通过生成合成查询、文档和解释，可以显著扩充训练数据集，提高模型的泛化能力和性能。然而，这种方法也面临生成质量、计算成本和模型适应性等挑战。未来的研究方向可能包括优化生成数据的质量、降低计算成本以及探索更高效的模型架构。

局限

成本与效率问题
- 高昂的API调用成本：许多无监督重排序方法依赖于大型LLMs（如GPT-3.5或GPT-4）的API调用，这不仅成本高昂，还可能导致响应延迟。
- 模型规模与效率：LLMs通常参数量庞大，导致推理速度较慢，难以满足实时应用的需求。
适应性不足
- 领域适应性：大多数研究集中在开放域数据集（如MS MARCO）上，但对于特定领域的数据集，LLMs的适应性仍需进一步探索。
- 非标准任务：除了文档重排序，还有其他类型的重排序任务（如响应排序、证据排序等），LLMs在这些任务中的表现和优化方法仍有待研究。
生成质量与噪声问题
- 生成噪声：LLMs生成的文档或查询可能包含噪声，影响重排序的准确性。
- 可靠性问题：即使使用了LLMs生成的参考文档，模型仍可能生成不准确或不相关的内容

READER：让数据更加符合人类阅读思维呈现

被动Reader

是指LLMs仅作为文档的被动接收者，利用检索系统提供的文档生成回答。根据检索文档的时机和频率，被动阅读器可以分为以下几种类型：

一次检索阅读器（Once-Retrieval Reader）
在查询开始时检索一次相关文档，并将这些文档作为LLMs生成回答的输入。例如，REALM和RAG等方法通过检索与查询最相关的文档来支持LLMs生成回答。
周期性检索阅读器（Periodic-Retrieval Reader）
在生成过程中定期检索文档，以补充LLMs生成过程中可能需要的额外信息。例如，RETRO和RALM等方法在每生成一定数量的tokens后检索一次文档。
非周期性检索阅读器（Aperiodic-Retrieval Reader）
根据LLMs生成文本的概率动态决定是否检索文档。例如，FLARE在LLMs生成文本的概率低于某个阈值时触发检索。

主动Reader

是指LLMs能够主动与检索系统交互，例如通过生成查询来检索信息。例如，SelfAsk和DSP等方法通过少量示例提示LLMs生成查询，从而主动检索信息。

压缩

由于LLMs的输入长度有限，压缩器的作用是从检索到的文档中提取或生成更短的文本，以便LLMs能够处理。例如，LeanContext通过强化学习选择与查询最相关的句子。

分析

这一部分讨论了对LLMs增强检索系统的研究分析，包括：

相关性位置的影响：相关文档在输入中的位置会影响生成质量。
检索增强的意识：LLMs通过检索增强能够更好地意识到自身知识的边界。
归因与流畅性的权衡：检索增强的LLMs在归因准确性上表现更好，但流畅性可能下降。

应用

LLMs增强的检索系统已被应用于多个领域，例如临床问答（ATLANTIC）、金融问答等。

局限性

尽管LLMs在阅读器模块中表现出色，但仍面临一些挑战，例如：

有效查询改写：如何生成更精确的查询以检索到更有用的文档。
最优检索频率：确定何时检索文档以支持LLMs生成回答。
文档理解与提取：准确理解检索到的文档内容并提取相关信息。
内容总结：将检索到的文档内容总结为简洁的回答。

总结

本文全面梳理了大语言模型在信息检索各个环节的应用现状，展示了大模型在查询重写、检索、重排序、阅读理解以及搜索代理等关键模块中的巨大潜力。大模型凭借其强大的语言理解和生成能力，为IR领域带来了新的机遇，特别是在搜索代理方面，为构建更智能、自然的搜索系统开辟了新的方向。

然而，大模型在信息检索应用中的应用仍面临诸多挑战，例如计算成本高、对长文本处理的局限性、模型的可解释性和可控性不足等。未来的研究方向可能包括：探索更有效的知识融合方法，使LLMs更好地利用结构化和非结构化知识；研究更高效的模型架构和训练方法以降低计算成本；提高LLMs的可解释性和可控性；以及探索LLMs与其他AI技术（如多模态、强化学习等）的结合应用。

总体而言，LLMs为IR领域带来了新的机遇与挑战，随着技术的不断进步和应用场景的拓展，LLMs有望在提升搜索体验和增强信息获取能力方面发挥越来越重要的作用。

文章参考：https://zhuanlan.zhihu.com/p/666414155