大型语言模型在问答任务中的代理综述_首先设计代理任务,在小规模数据集上测试小模型训练方法,以验证方案可行性-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/146711910

本文综述了基于大型语言模型（LLM）的问答（QA）代理的发展。传统代理面临显著限制，包括大量数据需求和难以推广到新环境的问题。基于LLM的代理通过利用LLM作为核心推理引擎解决了这些挑战。这些代理通过与外部环境交互，实现了比传统QA流水线和简单的LLM QA系统更优的问答效果。我们系统地回顾了LLM代理在问答任务中的设计，按关键阶段组织讨论：规划、问题理解、信息检索和答案生成。此外，本文识别了当前的挑战并探讨了未来的研究方向，以提高LLM代理问答系统的性能。

自主代理的概念在人工智能研究中早已被认可。这些代理可以感知其环境并自主行动，以追求预设目标 (Franklin 和 Graesser 1996) 。大型语言模型（LLM）的快速发展引发了对基于LLM的代理的兴趣增加 (Park 等人 2023；L. Wang 等人 2024) 。LLM是包含数十亿参数的神经网络。通过在大量文本数据上的训练，LLM获得了对语法、语义、上下文和世界知识的深刻理解。这使它们能够将各种自然语言处理（NLP）任务转化为端到端文本生成问题，从而在多个领域实现显著性能提升。对于基于LLM的代理，我们可以将感知传感器视为 “眼睛” ，将文本代表行动视为 “手” 。在这种情况下，LLM充当构建复杂代理的 “大脑” ，解决了先前代理的局限性。训练先前的代理需要大量的样本数据和高昂的专家奖励设计成本。相比之下，LLM代理拥有广泛的世界知识，并展现出强大的泛化能力，以适应新任务或环境。此外，由于广泛的语言理解和全面的世界知识，LLM表现出强大的推理能力，即使在没有特定环境训练的情况下也能处理复杂查询。此外，它们接受自然语言输入，提供灵活性、可解释性和用户友好性。

问答（QA）一直是自然语言处理（NLP）领域的长期研究重点，也是LLM代理广泛应用的主要场景之一。QA旨在根据给定的上下文或知识为用户提供正确答案，满足人类的信息需求 (Jurafsky 和 Martin 2024) 。值得注意的是，许多NLP任务可以以QA格式表达；例如，翻译任务可以表述为 “能否提供以下句子的翻译？” 。在本综述中，我们专注于用户有明确信息需求的任务。尽管LLM可以直接回答问题，但它们也面临一些限制。首先，LLM可能会产生幻觉，生成不准确或错误的答案，尤其是在需要细微、领域特定知识时。这在复杂的法律、金融或医疗决策领域尤为成问题 (Cui 等人 2024；Tao 等人 2024) 。其次，LLM的推理过程不与外部环境交互，如用于检索最新信息的数据库或用于获得更精确答案的工具（例如计算器、API）。此外，它们无法在环境中自主验证输出的正确性。

基于LLM的代理广泛应用于QA以解决这些问题。基于LLM的代理与独立LLM在QA任务中的主要区别在于多模块的启发式设计。这些模块指导LLM执行特定动作，如规划，并启用与外部环境的交互，包括数据库、工具、其他训练模型和人类。

本文对基于LLM的代理在QA任务中的设计进行了全面综述。我们首先提供了理解综述所需的初步知识。然后总结了基于LLM的代理在QA领域的当前研究，基于QA过程的各个阶段进行组织：规划、 问题理解 、 信息检索 、 答案生成 和 后续交互 。对于每个阶段，我们讨论引入该阶段的动机，并探讨如何设计基于LLM的代理以增强每个阶段的性能。此外，我们识别了该领域中的各种挑战，并讨论了潜在的未来研究方向。

本综述涵盖的研究主要来自NLP领域的顶级会议和期刊。关键会议包括计算语言学协会年会（ACL）、经验方法在自然语言处理中的应用会议（EMNLP）、北美计算语言学协会年会（NAACL）、国际学习表示会议（ICLR）以及神经信息处理系统会议（NeurIPS）等。

2 初步知识

简单代理、传统QA流水线、简单LLM QA系统和基于LLM的代理QA系统的概述。

2.1 代理

代理被定义为一种能够在特定环境中与其交互以实现特定目标的计算实体。图 1 (A) 展示了一个概念代理的概述。代理通常由以下几个部分组成：

朴素代理基于启发式或规则驱动方法设计，仅能处理显式编程的情景，缺乏泛化能力 (Nilsson 1982) 。强化学习（RL）基础代理的出现带来了范式转变，使代理能够通过试错和反馈机制从与环境的交互中学习 (Mnih 等人 2015； Lillicrap 等人 2015) 。

2.2 问答

问答（QA）是一项系统自动提供用户提问答案的任务。它在多个领域中起到关键应用作用，包括搜索引擎、客户服务和教育 (Voorhees 和 Tice 1999) 。

QA系统通常使用三种主要方法构建，分类依据是答案格式：

2.2.1 分类法

2.2.2 跨度提取法

2.2.3 文本生成法

这些模型将QA视为序列生成任务。给定一个问题，模型对所有标记进行分类：

早期基于文本生成的QA努力包括神经序列到序列模型，其中编码器将输入问题映射到潜在表示，解码器生成答案 (Bahdanau 等人. 2014) 。

2.3 传统QA流水线

图 1 (B) 描述了传统的QA流水线。这些系统依赖于将问题解决过程分解为多个步骤，通过固定的流水线执行。该过程通常从问题理解开始，涉及对用户查询的句法分析和语义理解 (Garg 等人. 2019) 。此阶段包括词性标注、依存句法分析、意图分类和槽位提取。随后，系统采用信息检索技术从预先建立的数据库中搜索可能相关的文档或答案来源，例如知识图谱、数据库或文档 (Karpukhin 等人 2020) 。最后，系统从候选答案中选择最有可能的答案，从上下文中提取答案，或生成答案并将结果呈现给用户作为最终输出。

这种流水线方法的主要限制有三个方面。首先，每个子模块都需要训练专门的模型，而这些模型缺乏世界知识，因此无法处理领域外的问题。其次，流水线是静态的，无法根据问题动态规划步骤。第三，对于开放域问题，检索需要庞大的语料库，且系统的性能高度依赖于检索器的有效性。

2.4 基于LLM的QA

如图 1 (C) 所示，基于LLM的QA利用预训练的LLM来理解和生成答案，通常通过在特定数据集上微调或采用少量示例提示技术。这种方法重新定义了QA范式。

主流的预训练LLM大致可以分为两类：掩码LLM（如BERT (Devlin 等人 2018) ），用于跨度提取QA任务，和自回归LLM（如GPT (OpenAI 2023) ），用于文本生成并遵循方程 [eq:text_generation] 中的公式。在本综述中，我们更多关注后者。

与传统QA系统相比，LLM具备生成连贯且上下文相关答案的能力，即使对于未明确训练过的问题也是如此。此外，它们可以直接进行开放域QA，利用大规模预训练中编码的广泛知识 (Petroni 等人 2019) 。

尽管具有优势，基于LLM的QA模型仍面临若干限制。一个重要问题是幻觉现象，即LLM可能生成看似合理但事实错误的答案 (Ji 等人. 2023) 。此外，LLM在推理过程中无法咨询外部数据库、API或其他动态来源 (Lewis 等人 2020) 。一旦训练完成，模型参数固定，只能依赖内部化的知识生成答案。

2.5 基于LLM的QA代理

为了克服传统QA流水线和简单LLM QA系统的局限性，基于LLM的代理成为了一种更优的解决方案，如图 1 (D) 所示。

3 领域分类

如我们在第 2.3 节所述，问答过程可以分解为： 问题理解 、 信息检索 和 答案生成 。此外，规划是LLM代理的独特特征，这是LLM代理内部能力的一部分，系统通过此功能确定回答问题的最佳策略，例如如何理解查询、是否直接检索信息或通过推理推导答案等。因此，我们按照这些阶段组织综述。此外，QA系统可能包括 后续交互 ，允许用户澄清查询或提出相关后续问题，从而使交互更加动态和以用户为中心 (Zhu 等人 2021) 。我们按照图 [fig:area_taxonomy] 所示，在LLM时代展示问答中的前沿技术。

4 基于分类的调查

4.1 数据集

LLM的快速发展显著影响了QA任务，促使创建了多样且具挑战性的数据集。这些数据集可以大致分为两类：封闭域/基于上下文的QA和开放域QA。封闭域/基于上下文的QA和开放域QA的区别在于知识范围是否受限于特定文档。在 封闭域QA 中，模型的参考严格限于与问题一起提供的预定义上下文，如段落、文档或领域特定语料库。模型应仅从此上下文中得出答案。不需要也不考虑超出所提供上下文的外部知识或信息。相比之下， 开放域QA 不限制知识来源。模型的任务是通过检索来自庞大开放语料库（如互联网）或从预训练阶段获得的内部知识来回答问题。这种方法要求能够处理没有特定文档或段落提供的查询。

4.1.0.1 封闭域数据集

封闭域QA数据集通常设计用于评估系统在特定文档内的答题能力。Squad (Rajpurkar 等人 2016) 和 DROP (Dua 等人 2019) 设计用于评估系统在文本段落上的理解能力。它要求模型处理复杂文档并提取相关信息以回答问题。DROP还涉及基于提取信息执行算术运算或比较。HotpotQA (Yang 等人. 2018) 同样设计用于阅读理解，但更注重多跳推理。在这里，模型必须通过分析多个段落的信息来回答问题，通常需要执行中间推理步骤以连接不同上下文中的证据。这不仅鼓励事实回忆，还增强了对提取事实的推理能力。 FinQA (Tao 等人 2024) 是专门为金融推理设计的数据集。它包含基于财务报告和文件的问题，要求模型不仅提取信息，还要理解和推理财务概念，通常涉及数值和算术推理。

4.1.0.2 开放域QA数据集

相比之下， 开放域QA 数据集不提供明确参考特定文档或段落以从中推导答案。相反，这些数据集涵盖了更广泛的主题，测试各种推理技能，通常要求模型从庞大、无结构的知识源或其参数中存储的知识中检索或推断信息。在LLM时代，开放域QA数据集变得更加重要，因为这是人类与机器交互的更自然方式。

开放域QA的事实问答例子包括 StrategyQA (Geva 等人 2021) ，它要求模型回忆所需信息并通过多步推理回答是/否问题以判断陈述是否正确。另一个数据集 ASQA (Stelmakh 等人 2022) 专注于通过生成多种可能的解释和对应答案来回答模糊问题。同时， ELI5 (Fan, Lewis, 和 Dauphin 2019) 设计用于回答非专业人员提出的长篇开放式问题，通常要求模型在广泛主题上提供既信息丰富又易于普通受众理解的详细解释。

当涉及到评估 数学推理 时，有几个具有挑战性的数据集被广泛使用。 GSM8k (Cobbe 等人 2021) 测试解决小学水平数学问题的能力，强调算术和解决问题的技巧。对于更高级的数学推理， MATH (Hendrycks 等人 2021) 和 TheoremQA (Wenhu Chen 等人. 2023) 数据集分别呈现高中和大学水平的数学问题，涵盖代数、微积分、几何等领域。此外， Olympic Math (He 等人 2024) 引入了一系列竞赛级别的问题，挑战模型解决复杂且创造性的数学难题，通常需要深入的数学洞察。

符号推理能力通过像 BBH (Suzgun 等人. 2022) （Big Bench Hard）这样的数据集进行测试，其中包括多种困难的推理任务，如模式识别、逻辑谜题和算法推理。另一个数据集 Folio (Han 等人 2022) 特别设计用于通过一系列形式逻辑和符号操作任务评估模型的符号推理能力。

为了评估跨多个领域的 知识密集型推理 ，使用了像 MMLU (Hendrycks 等人 2020) 这样的数据集。MMLU 包括来自超过50个不同领域的题目，包括历史、物理和法律，要求模型展示在人文和社会科学方面的广泛知识和推理能力。同样， GPQA (Rein 等人. 2024) 评估模型在各种领域中回答开放式研究生级别问题的能力，通常需要检索特定的科学事实。 WikiQA (Yi Yang, Yih, 和 Meek 2015) 关注基于维基百科数据的开放域问答，要求模型从维基百科文章中检索相关信息以回答多样化的问题。

最后， 条件推理 通过像 IFQA (Yu 等人. 2023) 这样的数据集进行探索，其中模型必须在可能反事实的条件下进行推理。模型需要理解假设或反事实情景，并根据给定条件或上下文变化得出正确答案。

4.2 规划

规划是自主系统中的关键组件，是使代理能够采取深思熟虑行动的关键。它指的是代理制定一系列中间步骤或动作的过程，以实现最终目标或答案。主要有两种范式：

4.2.0.1 基于提示的规划

在这种方法中，LLM 通过精心设计的指令进行引导，利用其潜在知识做出决策。通过提示 LLM 考虑中间动作和推理步骤，模型可以有效地回答问题。 ReAct (Yao 等人 2022) 提示 LLM 不仅思考下一步应该采取什么行动，还思考该行动的具体内容。例如，如果下一步涉及检索信息，则模型会被要求考虑什么行动（如搜索）以及具体要搜索的内容。这种方法展示了使用提示作为机制来指导 LLM 的决策和规划能力的潜力。 ReAct 是最早证明提示 LLM 可以根据当前情况有效制定计划并采取一系列行动以更好地回答问题的工作之一。 Think on Graph (Sun 等人 2023) 集中于基于知识图谱的 QA 规划。在这种方法中，LLM 被提示决定是否继续探索知识图谱中的节点以获取更多信息，或者是否已经拥有足够的数据来回答手头的问题。这种策略允许 LLM 在图中迭代规划其搜索过程，并动态决定何时停止收集信息并继续回答问题，从而提高其对结构化数据的推理能力。同样， Active Retriever (Z. Jiang 等人 2023) 强调在多个推理步骤中持续收集信息的重要性。这种方法强调单轮检索可能不足以回答复杂问题，因此提示 LLM 在必要时规划多次检索。模型被提示评估当前信息的完整性，并决定在尝试回答问题之前是否需要进一步检索。通过提示 LLM 主动规划重复的信息收集轮次， Active Retriever 确保模型保持灵活性，并能随着任务进展调整策略。 Agentverse (Weize Chen 等人 2023) 通过提示 LLM 决定在决策过程中涉及哪些专家模型或代理来扩展规划理念。在这种方法中，LLM 被赋予选择各种专用模型或检索系统的任务，具体取决于问题的性质。例如，LLM 可能会决定某个特定的专家模型更适合检索法律或金融信息。

总体而言，这些工作展示了提示 LLM 制定计划的有效性。然而，尽管这些方法取得了成功，它们仍然严重依赖于精心设计的启发式提示。LLM 的规划能力的有效性很大程度上取决于指令的制定方式以及提供的 上下文示范 （即提示中的示例）是否足够相似。这种对提示设计的依赖对泛化构成了挑战。因为每个提示和示范集通常针对特定任务或领域定制，LLM 可能在转移到新的、未见过的情境时遇到困难。

4.2.0.2 基于微调的规划

在这些方法中，LLM 可以从错误的动作轨迹中学习，并通过试错改进其策略，从而增强自主解决问题的能力。一种方法是 FireAct (B. Chen 等人 2023) ，它通过多跳 QA 任务生成的动作轨迹对 LLM 进行微调。此方法利用 ReAct 风格框架创建多个可能的任务解决方案轨迹。在训练过程中，GPT-4 被提示生成这些动作轨迹。然后收集正确的动作轨迹用于微调规划器，使其能够从过去的尝试中学习并逐步改进其决策过程。 Learning from Failure 方法 (R. Wang 等人 2024) 指出，仅使用正确轨迹而忽略失败尝试会导致大量有价值数据的浪费。此方法认识到成功与失败轨迹之间的比较可以为微调规划器提供关键见解。因此， Learning from Failure 建议将失败轨迹纳入训练过程。具体来说，该方法包括带有标准提示的正面示例和带有特殊提示的负面示例，后者表明案例不正确。通过从成功和失败中学习，模型可以更好地理解为什么某些动作会导致失败，并在未来任务中避免这些动作。在推理过程中，仅提供正常提示，但规划器已通过微调理解了成功与不成功的轨迹差异。这种方法增强了模型从两类经验中概括的能力，提供了更全面的试错学习方法。虽然许多先前的研究局限于狭窄的任务范围， AgentGen (Hu 等人 2024) 旨在为更广泛的任务合成规划路径，每条路径都基于特定环境条件。首先构建多个种子环境。然后提示 LLM 修改这些环境，例如通过 “添加更多约束” 。一旦生成修改后的环境，LLM 就会基于新环境收集轨迹。这使得模型能够探索处理不同类型环境的多种方式，显著扩展其规划能力，超越了先前方法的狭隘焦点。

这些基于微调的规划方法的主要优势在于能够从大量的训练数据中学习，包括成功和失败的尝试。然而，这些方法也有显著的局限性。一个主要挑战是它们严重依赖于通过多次潜在轨迹搜索来识别最佳规划路径。这种对搜索方法的依赖可能会限制方法的可扩展性。此外，尽管微调过程在提高特定任务性能方面非常有效，但它可能会对模型在新、未见过的任务上的泛化能力产生负面影响，从而在特定任务优化与广泛泛化之间形成权衡。

4.3 问题理解

问题理解过程需要从用户的查询中提取和理解信息，并使其更容易被机器理解。用户的问题可能是模糊或复杂的，因此采用了多种技术帮助机器处理问题，从而更容易生成答案。传统上，单独训练专门用于槽位标记和意图理解的模型 (Q. Chen, Zhuo, 和 Wang 2019) 。由于 LLM 展现了处理复杂语言结构的内在能力，研究使它们能够在无需任务特定模型的情况下执行问题理解。

4.3.0.1 识别槽位

槽位识别 关注于识别查询中的特定实体、变量或属性，并根据预定义类型对其进行分类。这一过程充当了非结构化自然语言输入与结构化数据表示之间的桥梁，使系统能够将用户查询映射到可以处理的结构化格式。LLM 代理的一个槽位识别示例是 ChatLaw (Cui 等人 2024) ，这是一个利用 LLM 来识别和聚类咨询问题中的法律实体的法律咨询系统。例如，当用户询问一个法律问题，如 “加利福尼亚州违反合同的处罚是什么？” ，系统会提取关键实体，如 “加利福尼亚州” 作为位置。这是问题理解的基本步骤。

4.3.0.2 查询扩展

查询扩展 通过扩充用户的原始查询来增强相关信息的检索。这些附加术语可以包括同义词、相关概念或从搜索或问题的上下文中推断出的更具体细节 (Carpineto 和 Romano 2012) 。很多时候，用户的初始查询可能缺乏返回最相关结果所需的精确度。通过扩展查询，加入语义相关的附加术语，查询扩展有助于缓解这些问题。例如，如果用户查询 “汽车保险索赔” ，查询扩展过程可能会添加像 “车辆保险” 、 “汽车索赔” 或 “事故报告” 这样的术语，以改进检索那些虽未明确匹配用户初始输入但仍与主题相关的文档。 HyQE (L. Gao, Ma, 等人 2023) 是一种利用 LLM 进行查询扩展的方法，它提示 LLM 生成多个假设文档，这些文档充当原始查询的扩展。 HyQE 的核心思想是，由 LLM 生成的假设文档更有可能包含相关答案文档中可能存在的必要关键词。另一种值得注意的方法是 Query2CoT (Jagerman 等人 2023) 。它首先将复杂查询分解为逐步的子问题。LLM 被指示识别与每个子问题相关的关键词。通过将查询分解为这种方式， Query2CoT 允许检索系统分别关注查询的不同组成部分，从而提高识别相关文档的精确性。另一种创新的查询扩展方法是 Step-back reformulation (Zheng 等人 2023) ，它将复杂的推理问题重新表述为更高层次的概念问题。这种方法专注于通过退一步简化推理密集型查询，集中于更广泛的概要理解。例如，给定具体的查询 “Estella Leopold 在 1954 年 8 月至 11 月期间就读于哪所学校？” ，Step-back 改写可能会将其简化为更高层次的问题 “Estella Leopold 的教育历史是什么？” 。通过以这种方式扩展查询，系统拓宽了其查询范围，允许检索更通用的信息，这些信息仍可能提供答案。

4.3.0.3 查询改写

另一种有效处理用户查询模糊或含糊的方法是 查询改写 。这一技术涉及重述或简化。一种突出的查询改写方法是 Rephrase and Response (Deng 等人 2023) ，它设计了特定提示，以指示 LLM 更改问题以提高清晰度。在此方法中，LLM 被提示以更结构化或更精确的方式重述原始查询，这有助于澄清模糊之处并提高查询与检索信息之间的对齐度。除了基于提示的方法外，其他方法还探索了专门为查询重写任务微调 LLM 的可能性 (X. Ma 等人 2023；Peng 等人 2023) 。作者介绍了一种方法，其中 LLM 被微调以将查询改写为多个替代版本。系统首先生成原始查询的多个改写版本，然后评估哪个改写版本在下游流程中导致最准确的答案。最终答案的正确性用作奖励信号，以指导最佳查询改写的选取。一旦确定表现最佳的查询，系统便使用技术如 直接偏好优化 (DPO) (Rafailov 等人 2024) 对 LLM 进行微调，训练其在未来的交互中生成更优的查询改写。

4.4 信息检索

LLM 基础 QA 代理中的 信息检索 组件在回答知识密集型问题时至关重要，用于从庞大语料库或外部知识源中提取相关信息。信息检索是指识别和排名可能包含回答给定问题所需信息的文档、段落或片段的过程。这一过程通常遵循检索和排名范式：

4.4.0.1 检索

检索涉及使用稀疏或稠密检索技术获取候选文档或段落。稀疏方法，如 BM25 (Jurafsky 和 Martin 2024) ，采用基于词频-逆文档频率（TF-IDF）的算法。然而，稀疏方法通常在语义不匹配的情况下挣扎，即使查询和文档可能具有类似的意义但使用不同的术语。

4.4.0.2 排名

最近的研究，包括 Ma 等人的研究 (Y. Ma 等人 2023) 和 Zhuang 等人的研究 (Zhuang 等人 2023) ，指出尽管 LLM 可能在作为文档检索器方面表现不佳，但它们在重新排列已检索文档方面表现出显著的能力。评估比较了基于 LLM 的排名器与传统排名器的性能。LLM 在重新排列检索到的文档方面显示出显著的优势。由于 LLM 具有强大的能力来理解和分析文档中的深层语义意义，它们可以分配与用户意图或查询更一致的相关性分数。

一个利用此重新排列能力的基于 LLM 的系统示例是 Haystack (Blagojevi 2023) 。在 Haystack 中，LLM 被提示评估一组文档相对于给定查询的相关性。然后使用这些分数重新排列检索到的文档，确保语义最相关的文档出现在列表顶部。另一种方法是 Self-RAG (Asai 等人 2023) 。在 Self-RAG 中，关键的 LLM 被微调以不仅评估检索到的文档的相关性，还评估它们对最终答案的贡献。检索增强生成系统中的一个关键挑战是确定何时信任 LLM 的内部知识，何时依赖外部文档。 Self-RAG 中的关键 LLM 通过区分提供新信息的文档和仅仅重复 LLM 已知知识的文档来解决这个问题。例如，关键 LLM 会倾向于提供新或补充信息的文档。

4.4.0.3 压缩与选择

LLMLingua (H. Jiang 等人 2023) 引入了一种新颖的粗粒度到细粒度、分步压缩方法，专为处理长提示而设计。 LLMLingua 首先应用粗粒度压缩步骤，通过移除多余或低重要性的信息来减少输入大小。随后进行细粒度处理，进一步精炼压缩后的输入，确保保留必要的语义内容。通过逐步压缩提示， LLMLingua 成功地显著减少了输入长度，同时保留了维持模型性能所需的必要信息。 RRecomp (Xu, Shi, 和 Choi 2023) 将 LLM 微调为抽取式和抽象式压缩器。抽取式压缩阶段涉及识别和保留最重要的句子或短语，以确保关键细节得以保存。在抽取式阶段之后， RRecomp 应用抽象式压缩步骤，其中剩余内容被总结或改写为更简洁的形式。这种混合模型的压缩方法允许 RRecomp 在保留细节和简洁性之间取得平衡。

4.5 答案生成

答案生成综合相关信息以对给定查询生成响应。几种方法可以增强 LLM 基础代理中的这一过程：

4.5.0.1 工具增强生成

这种方法允许 LLM 与外部工具（如计算器或代码解释器）互动，以增强其推理能力。 Program-of-Thought (PoT) 方法 (Wenhu Chen 等人. 2022；L. Gao, Madaan, 等人 2023) 专注于使用 LLM 生成作为推理过程一部分的可执行 Python 代码。与其完全依赖 LLM 直接生成答案，PoT 利用代码解释器获得最终答案。LLM 生成作为中间步骤的 Python 代码，这些代码可以在代码解释器中执行，结果作为最终答案返回。这种方法的优点在于，它允许 LLM 处理需要复杂推理和精确计算的问题。

HuggingGPT (Shen 等人 2024) 和 OpenAGI (Ge 等人 2024) 通过集成领域特定的外部模型作为 LLM 的工具进一步扩展了这一概念。这些系统提示 LLM 识别需要超出其内部能力的专业知识的任务，然后调用外部模型来处理这些任务。例如，在图像相关任务中，HuggingGPT 可以调用预训练的图像分割模型来分析图像、提取相关特征或进行预测，然后 LLM 将这些信息整合到其推理过程中以生成最终答案。类似地，OpenAGI 作为协调者，将 LLM 连接到各种任务特定模型——无论是处理音频、图像还是其他模态——允许 LLM 将多模态信息整合到其响应中。这种方法使 LLM 能够与专业 AI 模型协作，从而增强其回答问题或解决超出文本或概念知识范围的问题的能力。

Binding 方法 (Cheng 等人 2022；S. Gao 等人 2024) 通过使用自然语言生成和目标计算工具的混合系统，将外部工具的集成又向前推进了一步。在 Binding 中，LLM 首先被提示以自然语言骨架的形式生成问题的初步解决方案。然而，它并未生成完整解决方案，而是有意留出某些答案部分为空白作为占位符，这些信息将由外部工具计算或填充。例如，在解决数学文字问题时，LLM 可能以自然语言形式生成解决方案的结构，概述解决问题所需的步骤，但在具体数值计算处留下空白。这些掩码标记随后通过外部工具（如计算器）填充，计算器可以计算所需的精确值。Binding 通过确保使用专用外部计算系统来最小化数值或事实不准确性，提高了 LLM 生成答案的整体可靠性。

4.5.0.2 提示增强生成

各种提示技术可以改善答案生成。

链式思维 (CoT) 方法 (Wei 等人 2022) 是提示 LLM 在回答复杂问题时生成逐步的中间推理步骤，而不是一次性提供直接答案。这种结构化的推理过程允许模型将问题解决过程分解为更小、更易管理的步骤。CoT 的一项进展是引入了 问题分解 技术。Zhou 等人 (D. Zhou 等人. 2023) 提出了 最少到最多 提示策略，其中复杂问题被显式分解为一系列简单的子问题，可以按顺序解决。另一个重要的改进是 自我验证 概念 (X. Chen 等人. 2023) 。自我验证利用模型自身的推理来验证其中间步骤的正确性。在生成初始答案后，LLM 被提示重新评估其推理，检查最终答案的逻辑一致性和事实准确性。

最近的方法通过训练数据优化提示。 自我发现 (P. Zhou 等人 2024) 致力于自动化发现最优推理策略的组成。在自我发现中，LLM 被训练去探索解决问题的不同方式，尝试多样化的提示和推理策略。随着时间的推移，模型学会哪些策略能带来更成功的成果，并相应调整其行为。 PromptAgent (Xinyuan Wang 等人 2023) 在此基础上，将自动提示优化融入推理过程。PromptAgent 将提示构造视为一个适应性的多步骤过程，其中 LLM 在回答问题时扮演着核心角色，不断改进和优化提示结构。PromptAgent 根据 LLM 在回答问题中的表现连续更新提示。

4.6 后续交互

后续交互在对话中保持参与并确保清晰度。 (Xingyao Wang 等人. 2023) LLM 代理参与多回合对话，根据用户反馈完善答案。

4.6.0.1 错误解决

后续交互允许模型澄清误解或请求更多细节。Schick 等人 (Schick 等人 2022) 探索使用人类反馈修订创造性写作，而 Yan 等人 (Yan 等人 2023) 将人类反馈应用于改进语义解析结果。

4.6.0.2 顺序问答

这涉及在多个问答过程中保持上下文 (Iyyer, Yih, 和 Chang 2017) 。经过指令微调和来自人类反馈的强化学习后，LLM 可以参与多回合对话 (Ouyang 等人 2022) 。ChatQA (Liu 等人 2024) 通过上下文增强指令微调进一步提升了这种能力。

5 开放问题

随着 LLM QA 代理变得更强大，曾经看似具有挑战性的任务，如生成连贯的多回合对话或解决复杂的数学问题，现在已经变得更加容易处理。然而，它仍然远未完美，新的挑战也随之出现。

5.1 挑战性和实用基准测试

随着 LLM 代理表现出巨大的性能提升，对其基准测试的挑战变得越来越复杂。它包括多个方面：

5.1.0.1 细粒度答案生成过程评估

评估自由形式的答案仍然是现有 LLM 基础 QA 系统基准测试的主要挑战。许多基准仍然依赖于多项选择格式或粗粒度指标，如 ROGUE (C.-Y. Lin 2004) 和 BERTScore (T. Zhang 等人 2019) ，这些指标仅关注最终答案。这样的评估忽略了导致答案的推理过程，限制了其细致程度。随着链式思维（CoT）技术的应用增加 (Wei 等人. 2022) ，未来的基准需要纳入更细致的评估机制，不仅评估最终答案，还要评估底层推理过程，确保思维过程的正确性和连贯性 (Mondorf 和 Plank 2024) 。

5.1.0.2 难以评判的问题评估

有些问题是固有的难以评估，不像围棋等游戏那样有明确的成功标准。这些问题可以分为两类。第一类是有客观正确答案的问题，但验证正确性很困难，例如复杂的数学问题，甚至专家也需要花费数小时或几天才能评估。第二类是开放式问题，例如 “如何改进 QA 系统？” 这类问题没有绝对答案。开发有效的基准来评估 LLM 代理在这类问题上的表现对于理解它们迈向人类水平智能的路径至关重要。

5.1.0.3 实时评估

一个紧迫的挑战是保持基准的相关性和公平性。随着 LLM 继续从海量且不断演变的互联网数据中学习，防止数据泄露和确保公平比较变得至关重要。首先，必须保护数据集内容的完整性，如测试问题和答案。一种可能的解决方案是开发一个动态更新自身的基准 (Ying 等人. 2024) 。其次，基准应保护数据集的结构和格式，因为使用合成数据或手动标注的示例操纵排行榜 (Dubey 等人 2024) 可能导致过拟合。目前，很少有有效的机制可以防止这种情况，因此开发更可信和时间弹性的基准是一个有价值的未来研究方向。

5.2 幻觉与校准

当前 LLM 在 QA 中面临的最紧迫问题之一是它们倾向于幻觉，即生成虚假或虚构的信息，同时保持对其输出准确的信心。与人类不同，人类通常可以衡量他们对答案的信心，而 LLM 缺乏良好的校准机制来判断其输出的正确性。解决这一问题需要改进模型的校准能力，使其能够更好地预测何时可能出错并传达这种不确定性。有几种可能的途径可以应对这一挑战：

5.2.0.1 整合外部工具/知识

一个有希望的研究方向是整合外部工具或知识数据库，以帮助 LLM 评估其响应的信心水平 (Semnani 等人 2023) 。然而，一个挑战是 LLM 可能过度依赖外部信息，而没有充分评估其可靠性，不像人类那样对外部信息来源的可信度更加敏感。因此，使 LLM 能够自主分析和权衡不同来源的可靠性是减少幻觉的重要方向。

5.2.0.2 提高训练 LLM 的校准能力

另一个基本方法是在训练过程中改进 LLM 的内部校准机制。不确定性感知训练技术 (Yuchen Yang 等人 2023) 旨在微调模型以在训练期间预测其不确定性。然而，与传统的基于概率的方法或投票策略等集合方法相比，这些方法尚未显示出显著改进 (Z. Lin, Trivedi, 和 Sun 2023) 。因此，开发更有效的训练方法以增强 LLM 的内在校准能力仍然是一个开放问题。

5.2.0.3 LLM 内在表示

人类通常会在不确定答案时体验到意识的觉醒，这引发了一个问题：LLM 是否可以发展类似的自我意识？如果是，如何表示？这一领域的研究可能涉及识别模型中对应过度自信或不确定性的确切神经电路，然后相应调整这些内部状态。通过检测和调节这些内在表示，研究人员可以帮助 LLM 更清楚地了解自身的可靠性，从而提供更值得信赖的答案 (Orgad 等人. 2024) 。然而，这是一个新兴领域，其基础机制尚未完全理解。

5.3 推理能力提升

增强 LLM 代理在 QA 中的推理能力仍然是一个重要且具有挑战性的探索领域。推理能力在 QA 中至关重要，因为它不仅决定了答案的正确性，还确保了得出结论的过程是逻辑的、可解释的和可靠的。因此，提升推理技能是使 LLM 在实际问题解决场景中更有效的关键。

5.3.0.1 探索以增强推理

一种有希望的提升推理能力的方法是探索多种推理路径进行训练问题或合成数据 (Chan 等人 2024) 。研究表明，通过各种试验搜索并训练 LLM 在成功路径上可以显著增强其推理能力 (Trinh 等人 2024) 。然而，当前的搜索方法通常依赖于某些特定领域的信号，如几何问题中的 Lean 语言或代数表示，这限制了在一般领域的泛化能力。在其他领域中，奖励模型 (D. Zhang 等人 2024) 或 LLM 自我评估策略 (Tian 等人 2024) 被用于对推理过程进行评分。因此，开发更可靠的评分机制以探索推理路径是提高 LLM 跨不同领域推理能力的关键步骤。

5.3.0.2 从记忆中提升推理

另一个关键领域是使 LLM 能够从记忆中学习，从而快速适应新环境。与人类不同，人类从过往经验中学习，而 LLM 将每次交互视为一个新的会话，常常重复同样的错误。增强 LLM 从过往交互中保留和学习的能力至关重要。这不仅限于在推理时提供交互历史。LLM 需要能够从过往经验中提取基础知识，并将其应用于新场景，从而提高其适应性和推理效果。

5.3.0.3 增强因果推理逻辑链

整合因果推理可以显著改进 LLM 生成的逻辑链的严谨性和连贯性。通常，LLM 根据统计相关性生成响应，这可能无法准确反映某些问题所需的因果逻辑。通过引入因果推理框架，LLM 可以更好地识别和应用问题中的因果关系，从而实现更稳健的逻辑推理。这种方法不仅提高了答案的准确性，还增强了其可解释性。训练 LLM 认识和利用因果模型，特别是在因果结构固有的领域中，将有助于生成更精确和有见地的响应。

5.4 自主工具选择与创建

人类具备为各种任务选择适当工具的能力，通常总结他们的经验以创建针对特定目的的新工具。在 QA 的背景下，我们本能地决定何时寻求外部帮助，例如搜索网络、咨询数据库或询问专家。相比之下，当前的 LLM 缺乏主动选择工具或外部资源的内在能力。它们不会自然规划解决问题所需的步骤，也无法确定何时涉及外部系统，这构成了开发更自主、智能代理的重要挑战，这些代理能够适时利用正确的资源。此外，它们无法发现重复问题的模式，并自行创建工具来解决这些问题。

为了解决这一局限性，未来的研究应着重于使 LLM 开发一种工具使用和工具创建规划的形式。这将允许模型动态决定何时利用工具以及何时创建新工具。这种能力将使 LLM 更接近人类的问题解决方式，增强其在开放式任务和协作环境中的有效性。

5.5 LLM 在文档索引构建中的作用

另一个关键挑战是 LLM 在改进信息检索（IR）中的作用。鉴于 LLM 已经展现出理解自然语言语义意义的能力，将其整合到检索过程中显示出巨大的潜力。目前，LLM 被用于诸如查询扩展/公式化或排名等任务，以增强 IR 性能。从我们的角度来看，将 LLM 整合到文档索引构建中代表了一个新颖且有前途的研究方向。索引涉及使用嵌入模型将文档转换为向量表示，从而可以根据查询向量的相似性检索文档向量。主要挑战在于使用 LLM 对数百万或数十亿文档进行索引的成本。然而，随着小型 LLM 的能力不断提高，将 LLM 整合到索引过程可能会成为一个可行且有影响力的研究途径。

6 结论

LLM 代理的快速发展显著提升了问答系统的表现。本调查回顾了代理和 QA 系统的发展历程，然后定义了 LLM 代理 QA 系统的概念。我们将回答过程分解为多个子任务，展示了前沿方法如何被用于改进 LLM 代理 QA 系统。最后，我们突出了值得注意的挑战，并确定了可能提升基于 LLM 的代理性能的研究方向。

Asai, Akari, Zeqiu Wu, Yizhong Wang, Avirup Sil, 和 Hannaneh Hajishirzi. 2023. “Self-Rag: 学习通过自我反思检索、生成和批评。” arXiv Preprint arXiv:2310.11511 .

Bahdanau, Dzmitry 等人. 2014. “通过联合学习对齐和翻译实现神经机器翻译。” arXiv Preprint arXiv:1409.0473 .

Blagojevi, Vladimir. 2023. “在 Haystack 中增强 Rag 流程：介绍 Diversityranker 和 Lostinthemiddleranker。”

Carpineto, Claudio, 和 Giovanni Romano. 2012. “信息检索中自动查询扩展的综述。” ACM Computing Surveys (CSUR) 44 (1): 1–50.

Chan, Xin, Xiaoyang Wang, Dian Yu, Haitao Mi, 和 Dong Yu. 2024. “通过十亿个人格扩展合成数据创建规模。” arXiv Preprint arXiv:2406.20094 .

Chen, Baian, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik Narasimhan, 和 Shunyu Yao. 2023. “Fireact：迈向语言代理微调。” arXiv Preprint arXiv:2310.05915 .

Chen, Qian, Zhu Zhuo, 和 Wen Wang. 2019. “Bert 用于联合意图分类和槽位填充。” arXiv Preprint arXiv:1902.10909 .

Chen, Weize, Yusheng Su, Jingwei Zuo, Cheng Yang, Chenfei Yuan, Chi-Min Chan, Heyang Yu, 等人. 2023. “Agentverse：促进多代理协作和探索新兴行为。” 在 第十二届国际学习表征会议 上。

Chen, Wenhu, Xueguang Ma, Xinyi Wang, 和 William W Cohen. 2022. “程序思维提示：分离计算与推理以应对数值推理任务。” arXiv Preprint arXiv:2211.12588 .

Chen, Wenhu, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, 和 Tony Xia. 2023. “Theoremqa：一个定理驱动的问答数据集。” 在 2023年经验方法自然语言处理会议论文集 中，7889–7901.

Chen, Xinyun, Maxwell Lin, Nathanael Schärli, 和 Denny Zhou. 2023. “教导大型语言模型自我调试。” arXiv Preprint arXiv:2304.05128 .

Cheng, Zhoujun, Tianbao Xie, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, 等人. 2022. “将语言模型绑定到符号语言。” arXiv Preprint arXiv:2210.02875 .

Cobbe, Karl, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, 等人. 2021. “训练验证器解决数学文字问题。” arXiv Preprint arXiv:2110.14168 .

Cui, Jiaxi, Munan Ning, Zongjian Li, Bohua Chen, Yang Yan, Hao Li, Bin Ling, Yonghong Tian, 和 Li Yuan. 2024. “Chatlaw：基于知识图谱增强混合专家大型语言模型的多代理协作法律助手。” https://arxiv.org/abs/2306.16092 .

Deng, Yihe, Weitong Zhang, Zixiang Chen, 和 Quanquan Gu. 2023. “重述和回应：让大型语言模型为自己提出更好的问题。” arXiv Preprint arXiv:2311.04205 .

Devlin, Jacob 等人. 2018. “BERT：用于语言理解的深度双向变压器预训练。” arXiv Preprint arXiv:1810.04805 .

Dua, Dheeru, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, 和 Matt Gardner. 2019. “DROP：需要段落离散推理的阅读理解基准。” arXiv Preprint arXiv:1903.00161 .

Dubey, Abhimanyu, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, 等人. 2024. “Llama 3 模型群。” arXiv Preprint arXiv:2407.21783 .

Fan, Angela, Patrick Lewis, 和 Yann Dauphin. 2019. “ELI5：长篇问答。” arXiv Preprint arXiv:1907.09190 .

Franklin, Stan, 和 Art Graesser. 1996. “它是代理还是只是程序？自主代理的分类。” 在 代理理论、架构和语言国际研讨会 上，21–35. Springer.

Gao, Luyu, Xueguang Ma, Jimmy Lin, 和 Jamie Callan. 2023. “无需相关标签的精确零样本稠密检索。” 在 计算语言学协会第61届年会论文集（第一卷：长论文） 中，由 Anna Rogers, Jordan Boyd-Graber, 和 Naoaki Okazaki 编辑，1762–77. 加拿大 Toronto: 计算语言学协会. https://doi.org/10.18653/v1/2023.acl-long.99 .

Gao, Luyu, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, 和 Graham Neubig. 2023. “PAL：程序辅助语言模型。” 在 国际机器学习会议 中，10764–99. PMLR.

Gao, Silin, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, 和 Tianlu Wang. 2024. “通过链式抽象推理高效使用工具。” arXiv Preprint arXiv:2401.17464 .

Gao, Yunfan, Yun Xiong, Meng Wang, 和 Haofen Wang. 2024. “模块化 RAG：将 RAG 系统转化为乐高式可重构框架。” arXiv Preprint arXiv:2407.21059 .

Garg, Sarthak 等人. 2019. “TANDA：迁移和适应预训练变换器模型以选择答案句子。” 在 计算语言学协会第57届年会论文集 中，5488–94.

Ge, Yingqiang, Wenyue Hua, Kai Mei, Juntao Tan, Shuyuan Xu, Zelong Li, Yongfeng Zhang, 等人. 2024. “OpenAGI：当 LLM 遇到领域专家。” 先进神经信息处理系统 36.

Geva, Mor, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, 和 Jonathan Berant. 2021. “亚里士多德是否用过笔记本电脑？具有隐含推理策略的问答基准。” 计算语言学协会交易 9: 346–61.

Han, Simeng, Hailey Schoelkopf, Yilun Zhao, Zhenting Qi, Martin Riddell, Luke Benson, Lucy Sun, 等人. 2022. “FOLIO：使用一阶逻辑进行自然语言推理。” arXiv Preprint arXiv:2209.00840 . https://arxiv.org/abs/2209.00840 .

He, Chaoqun, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, 等人. 2024. “OlympiadBench：一个具有双语多模态科学问题的挑战性基准，推动 AGI 发展。” https://arxiv.org/abs/2402.14008 .

Hendrycks, Dan, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, 和 Jacob Steinhardt. 2020. “衡量大规模多任务语言理解。” arXiv Preprint arXiv:2009.03300 .

Hendrycks, Dan, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, 和 Jacob Steinhardt. 2021. “通过数学数据集衡量数学问题解决能力。” arXiv Preprint arXiv:2103.03874 .

Hu, Mengkang, Pu Zhao, Can Xu, Qingfeng Sun, Jianguang Lou, Qingwei Lin, Ping Luo, Saravan Rajmohan, 和 Dongmei Zhang. 2024. “AgentGen：通过环境和任务生成增强基于大型语言模型代理的规划能力。” arXiv Preprint arXiv:2408.00764 .

Iyyer, Mohit, Wen-tau Yih, 和 Ming-Wei Chang. 2017. “基于搜索的神经结构化学习用于顺序问答。” 在 计算语言学协会第55届年会论文集（第一卷：长论文） 中，1821–31.

Jagerman, Rolf, Honglei Zhuang, Zhen Qin, Xuanhui Wang, 和 Michael Bendersky. 2023. “通过大语言模型提示进行查询扩展。” arXiv Preprint arXiv:2305.03653 .

Ji, Zihao 等人. 2023. “自然语言生成中的幻觉调查。” ACM 计算机调查（CSUR） 55 (12): 1–38.

Jiang, Huiqiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, 和 Lili Qiu. 2023. “Longllmlingua：通过提示压缩加速和增强长上下文场景中的 LLMs。” arXiv Preprint arXiv:2310.06839 .

Jiang, Zhengbao, Frank F Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, 和 Graham Neubig. 2023. “主动检索增强生成。” arXiv Preprint arXiv:2305.06983 .

Jurafsky, Daniel, 和 James H. Martin. 2024. 语音和语言处理：自然语言处理、计算语言学和语音识别的语言模型导论 .

Karpukhin, Vladislav 等人. 2020. “开放域问答中的密集段落检索。” 在 2020年经验方法自然语言处理会议（EMNLP）论文集 中，6769–81.

Lewis, Patrick 等人. 2020. “检索增强生成用于知识密集型 NLP 任务。” 在 神经信息处理系统进展 中，9459–74.

Lillicrap, Timothy P 等人. 2015. “通过深度强化学习实现连续控制。” arXiv Preprint arXiv:1509.02971 .

Lin, Chin-Yew. 2004. “ROUGE：自动摘要评价包。” 在 文本摘要分支 中，74–81.

Lin, Zhen, Shubhendu Trivedi, 和 Jimeng Sun. 2023. “生成带信心：黑盒大语言模型的不确定性量化。” arXiv Preprint arXiv:2305.19187 .

Liu, Zihan, Wei Ping, Rajarshi Roy, Peng Xu, Mohammad Shoeybi, 和 Bryan Catanzaro. 2024. “ChatQA：构建 GPT-4 级别对话 QA 模型。” arXiv Preprint arXiv:2401.10225 .

Ma, Xinbei, Yeyun Gong, Pengcheng He, hai zhao, 和 Nan Duan. 2023. “检索增强大语言模型中的查询重写。” 在 2023年经验方法自然语言处理会议 中。 https://openreview.net/forum?id=gXq1cwkUZc .

Ma, Yubo, Yixin Cao, YongChing Hong, 和 Aixin Sun. 2023. “大语言模型不是好的少样本信息提取器，但却是优秀的难样本重新排序器！” arXiv Preprint arXiv:2303.08559 .

Mnih, Volodymyr 等人. 2015. “通过深度强化学习实现的人类水平控制。” 自然 518 (7540): 529–33.

Mondorf, Philipp, 和 Barbara Plank. 2024. “超越准确性：评估大语言模型的推理行为——综述。” arXiv Preprint arXiv:2404.01869 .

Nilsson, Nils J. 1982. 人工智能原理 . Springer.

OpenAI. 2023. “GPT-4 技术报告。” arXiv Preprint arXiv:2303.08774 .

Orgad, Hadas, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, 和 Yonatan Belinkov. 2024. “LLMs 显示更多而非展示：关于 LLM 幻觉的内在表示。” arXiv Preprint arXiv:2410.02707 .

Ouyang, Long, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, 等人. 2022. “通过人类反馈训练语言模型遵循指令。” 神经信息处理系统进展 35: 27730–44.

Park, Joon Sung, Joseph O’Brien, Carrie Jun Cai, Meredith Ringel Morris, Percy Liang, 和 Michael S Bernstein. 2023. “生成代理：人类行为的互动模拟。” 在 ACM 用户界面软件和技术年度研讨会论文集 中，1–22.

Peng, Wenjun, Guiyang Li, Yue Jiang, Zilong Wang, Dan Ou, Xiaoyi Zeng, Tongxu, 和 Enhong Chen. 2023. “基于大语言模型的淘宝搜索长尾查询重写。” ACM Web 大会附属论文集 2024 . https://api.semanticscholar.org/CorpusID:265042961 .

Petroni, Fabio 等人. 2019. “语言模型作为知识库？” arXiv Preprint arXiv:1909.01066 .

Rafailov, Rafael, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, 和 Chelsea Finn. 2024. “直接偏好优化：你的语言模型实际上是奖励模型。” 神经信息处理系统进展 36.

Rajpurkar, Pranav 等人. 2016. “SQuAD：100,000+ 个问题用于机器文本理解。” 在 2016年经验方法自然语言处理会议论文集 中， 2383–92.

Rein, David, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, 和 Samuel R. Bowman. 2024. “GPQA：研究生级别的谷歌证明问答基准。” 在 首届语言建模会议 中。 https://openreview.net/forum?id=Ti67584b98 .

Robertson, Stephen. 2004. “理解逆文档频率：关于 IDF 的理论论证。” 文献期刊 60 (5): 503–20.

Schick, Timo, Jane Dwivedi-Yu, Zhengbao Jiang, Fabio Petroni, Patrick Lewis, Gautier Izacard, Qingfei You, Christoforos Nalmpantis, Edouard Grave, 和 Sebastian Riedel. 2022. “Peer：协作语言模型。” arXiv Preprint arXiv:2208.11663 .

Semnani, Sina J, Violet Z Yao, Heidi C Zhang, 和 Monica S Lam. 2023. “WikiChat：通过维基百科少量示例接地阻止大语言模型聊天机器人产生幻觉。” arXiv Preprint arXiv:2305.14292 .

Shen, Yongliang, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, 和 Yueting Zhuang. 2024. “HuggingGPT：使用 ChatGPT 和 Hugging Face 中的朋友解决 AI 任务。” 神经信息处理系统进展 36.

Stelmakh, Ivan, Yi Luan, Bhuwan Dhingra, 和 Ming-Wei Chang. 2022. “ASQA：事实问题遇到长篇答案。” arXiv Preprint arXiv:2204.06092 .

Sun, Jiashuo, Chengjin Xu, Lumingyuan Tang, Saizhuo Wang, Chen Lin, Yeyun Gong, Heung-Yeung Shum, 和 Jian Guo. 2023. “Think-on-Graph：使用知识图谱的大语言模型深度和负责任推理。” arXiv Preprint arXiv:2307.07697 .

Suzgun, Mirac, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, 等人. 2022. “挑战 BIG-Bench 任务及链式思维能否解决它们。” arXiv Preprint arXiv:2210.09261 .

Tao, Wenbiao, Hanlun Zhu, Keren Tan, Jiani Wang, Yuanyuan Liang, Huihui Jiang, Pengcheng Yuan, 和 Yunshi Lan. 2024. “FinQA：金融领域内基于 LM 的动态知识图谱问答系统，无需训练即可进行修订。” 在 欧洲机器学习和知识发现联合会议 中，418–23. Springer.

Tian, Ye, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, 和 Dong Yu. 2024. “通过想象、搜索和批评实现 LLM 自我改进。” arXiv Preprint arXiv:2404.12253 .

Trinh, Trieu, Yuhuai Wu, Quoc Le, He He, 和 Thang Luong. 2024. “无需人类示范解决奥林匹克几何问题。” 自然 . https://doi.org/10.1038/s41586-023-06747-5 .

Voorhees, Ellen M, 和 Dawn M Tice. 1999. “TREC-8 问答轨道报告。” 在 TREC 文本检索会议 中. Citeseer.

Wang, Lei, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, 等人. 2024. “基于大型语言模型的自主代理综述。” 计算机科学前沿 18 (6): 186345.

Wang, Renxi, Haonan Li, Xudong Han, Yixuan Zhang, 和 Timothy Baldwin. 2024. “从失败中学习：微调大型语言模型作为代理时整合负面示例。” arXiv Preprint arXiv:2402.11651 .

Wang, Xingyao, Zihan Wang, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng, 和 Heng Ji. 2023. “Mint：在多回合工具和语言反馈交互中评估 LLM。” arXiv Preprint arXiv:2309.10691 .

Wang, Xinyuan, Chenxi Li, Zhen Wang, Fan Bai, Haotian Luo, Jiayou Zhang, Nebojsa Jojic, Eric P Xing, 和 Zhiting Hu. 2023. “Promptagent：通过语言模型进行战略性规划以实现专家级提示优化。” arXiv Preprint arXiv:2310.16427 .

Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, 等人. 2022. “链式思维提示激发大语言模型中的推理。” 神经信息处理系统进展 35: 24824–37.

Xu, Fangyuan, Weijia Shi, 和 Eunsol Choi. 2023. “Recomp：通过压缩和选择性增强改进检索增强型语言模型。” arXiv Preprint arXiv:2310.04408 .

Yan, Hao, Saurabh Srivastava, Yintao Tai, Sida I Wang, Wen-tau Yih, 和 Ziyu Yao. 2023. “学习模拟自然语言反馈以实现交互式语义解析。” arXiv Preprint arXiv:2305.08195 .

Yang, Yi, Wen-tau Yih, 和 Christopher Meek. 2015. “WikiQA：一个使用维基百科进行开放域问答的挑战数据集。” arXiv Preprint arXiv:1412.7808 .

Yang, Yuchen, Houqiang Li, Yanfeng Wang, 和 Yu Wang. 2023. “通过利用不确定性感知的上下文学习提高大型语言模型的可靠性。” arXiv Preprint arXiv:2310.04782 .

Yang, Zhilin, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W Cohen, Ruslan Salakhutdinov, 和 Christopher D Manning. 2018. “HotpotQA：一个用于多样、可解释多跳问答的数据集。” 在 2018年经验方法自然语言处理会议论文集 中，2369–80.

Yao, Shunyu, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, 和 Yuan Cao. 2022. “React：协同语言模型中的推理和行动。” arXiv Preprint arXiv:2210.03629 .

Ying, Jiahao, Yixin Cao, Yushi Bai, Qianru Sun, Bo Wang, Wei Tang, Zhaojun Ding, Yizhe Yang, Xuanjing Huang, 和 Shuicheng Yan. 2024. “自动化数据集更新以可靠和及时地评估大型语言模型。” https://arxiv.org/abs/2402.11894 .

Yoran, Ori, Tomer Wolfson, Ori Ram, 和 Jonathan Berant. 2023. “使检索增强型语言模型对无关上下文具有鲁棒性。” arXiv Preprint arXiv:2310.01558 .

Yu, Wenhao, Meng Jiang, Peter Clark, 和 Ashish Sabharwal. 2023. “IfQA：一个开放域问答数据集，针对反事实假设。” arXiv Preprint arXiv:2305.14010 .

Zhang, Dan, Sining Zhoubian, Yisong Yue, Yuxiao Dong, 和 Jie Tang. 2024. “ReST-MCTS*：通过过程奖励引导树搜索实现 LLM 自训练。” arXiv Preprint arXiv:2406.03816 .

Zhang, Tianyi, Varsha Kishore, Felix Wu, Kilian Q Weinberger, 和 Yoav Artzi. 2019. “BERTScore：使用 BERT 评估文本生成。” arXiv Preprint arXiv:1904.09675 .

Zheng, Huaixiu Steven, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H Chi, Quoc V Le, 和 Denny Zhou. 2023. “退一步看：通过抽象唤起大语言模型中的推理。” arXiv Preprint arXiv:2310.06117 .

Zhou, Denny, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, 等人. 2023. “最少到最多提示法使大语言模型能够进行复杂推理。” https://arxiv.org/abs/2205.10625 .

Zhou, Pei, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V Le, Ed H Chi, Denny Zhou, Swaroop Mishra, 和 Huaixiu Steven Zheng. 2024. “Self-Discover：大型语言模型自我组合推理结构。” arXiv Preprint arXiv:2402.03620 .

Zhu, Fengbin, Wenqiang Lei, Chao Wang, Jianming Zheng, Soujanya Poria, 和 Tat-Seng Chua. 2021. “检索与阅读：开放域问答的全面调查。” arXiv Preprint arXiv:2101.00774 .

Zhuang, Shengyao, Bing Liu, Bevan Koopman, 和 Guido Zuccon. 2023. “开源大语言模型是强大的零样本查询似然模型，用于文档排名。” arXiv Preprint arXiv:2310.13243 .

原论文：https://arxiv.org/pdf/2503.19213