推理模型(LRMs)的发展取得了显著进展,展现出强大的推理能力,能在复杂任务中表现出色。然而,这些模型在多跳问答(QA)任务中仍面临挑战,主要归因于其对参数化知识的依赖,导致事实准确性受限。为解决这一问题,研究人员提出了ReaRAG(Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation)模型,通过知识引导的推理和迭代检索增强机制,有效提升了大推理模型在多跳问答任务中的表现和事实性。
一、推理模型的现状与挑战
像OpenAI的o1、Qwen的QwQ-32B、GLM-Zero-Preview和DeepSeekR1等大推理模型,在复杂任务中表现出令人瞩目的推理能力,能够在生成答案前进行深思熟虑的推理。但在多跳问答任务中,仅依靠参数化知识无法满足需求,因为这类任务往往需要超出模型记忆范围的知识进行推理。
检索增强生成(RAG)为提升LRMs的事实性提供了一种可行方案,它通过整合外部知识来增强模型的回答能力。但RAG在检索相关文档时面临挑战,需要精确制定搜索查询。以往的迭代检索策略虽构建了子查询和子答案的推理链来解决多跳问答,但存在错误传播问题,早期步骤的错误会误导后续检索和推理,降低最终答案的质量。例如,Search-o1采用基于提示的策略,利用LRM的推理能力迭代修正子查询,并引入了Reason-in-Documents模块生成子答案,但它存在特殊令牌生成不可靠、信息提取失败和幻觉、基于强化学习的LRMs过度思考等问题,限制了其在RAG任务中的性能。
二、ReaRAG模型的设计与实现
2.1 任务形式化
ReaRAG聚焦于多跳问答任务,其目标是构建知识引导的推理链,提高生成答案的事实正确性。推理链被形式化为一系列步骤,每个步骤包含推理思维(reasoning thought)、动作(action)和观察(observation)。推理步骤的数量由模型动态决定,但受上限 ( T_{max} ) 约束,以防止无限迭代。动作空间定义为 ( A = {search(), finish()} ) ,search动作根据推理思维生成搜索查询,从RAG引擎中检索相关信息,finish动作则表示推理过程结束,输出最终答案。
2.2 知识引导推理链生成
为使外部知识可访问,ReaRAG设计了结构化的推理步骤。推理思维代表模型在决定动作及其输入参数前,对先前动作和观察的思考过程;动作是从动作空间中采样的JSON字典,包含相应的输入参数;观察是执行动作后收到的反馈,用于指导后续推理。
ReaRAG通过自动化数据构建方法来获取推理链。给定一个多跳问题,模型会根据指令提示生成推理思维和动作,提取搜索查询并在RAG引擎中执行,获取观察结果。这个过程会不断迭代,直到模型选择finish动作或达到最大迭代次数。为确保数据质量,还会通过F1指标对推理链生成的最终答案与真实答案进行比较,丢弃F1分数为0的推理链。
2.3 ReaRAG模型的微调与推理
在微调阶段,ReaRAG在构建的数据集上进行有监督微调,该数据集包含知识引导的推理链。微调使用的损失函数仅在推理思维和动作的令牌上计算损失,以确保模型学习到有效的推理和动作策略。
在推理阶段,给定指令提示和问题,ReaRAG首先生成推理思维和初始动作(通常是search动作)。提取搜索查询并在RAG引擎中执行,获取观察结果。这个过程不断迭代,模型根据观察结果持续调整推理思维和动作。最终,ReaRAG选择finish动作,提取最终答案,并通过提示答案模型生成简洁的最终回答。
三、实验设置与结果
3.1 实验设置
为验证ReaRAG的有效性,研究人员在多个多跳推理任务数据集上进行实验,包括MuSiQue、HotpotQA、IIRC和单跳的Natural Questions(NQ)。由于这些数据集需要开放式答案,传统的精确匹配(EM)指标可能无法准确评估,因此采用LLM-as-a-Judge指标( ( ACC_{L} ) ),并使用GPT-4o进行更准确的评估。
实验设置了多种基线模型,包括上下文检索、普通RAG和先进的RAG方法。上下文检索直接将语料库附加到语言模型的上下文中;普通RAG基于原始多跳问题进行单次检索;先进的RAG方法如SelfRAG、SearChain和Search-o1等则采用了更复杂的策略来处理多跳问答任务。
3.2 实现细节
ReaRAG的RAG引擎由检索和生成两个主要组件构成。检索部分使用Zhipu的API中的嵌入模型和基于GLM3架构的重排器,以提高检索质量;生成部分则采用GLM-4-32B,在128k的上下文长度下根据检索到的文档生成响应。
数据构建和微调方面,种子数据集来自MuSiQue、HotpotQA和NQ的训练集,使用QwQ-32B作为LRM生成推理链。为确保模型的通用性,对GLM-4-9B进行微调,使用构建的数据集(约20k经过筛选的样本)和GLM-4的通用SFT数据集。
3.3 主要结果
实验结果表明,ReaRAG在除单跳NQ基准测试外的所有基准测试中均优于其他基线模型。在NQ基准测试中,ReaRAG与SearChain和使用GLM-4-32B骨干的普通RAG表现相当。这主要是因为SearChain使用GPT-4o作为骨干,而普通RAG的GLM-4-32B骨干规模较大,且单跳设置中ReaRAG的强推理能力优势不明显。但从EM指标来看,ReaRAG与使用GLM-4-32B骨干的普通RAG差距较大,这表明EM指标可能无法有效捕捉语言模型生成的上下文有效答案。
与其他基线模型相比,ReaRAG在多跳推理任务中表现出色。在MuSiQue、HotpotQA和IIRC基准测试中,ReaRAG相对于表现最佳的基线模型SearChain,在 ( ACC_{L} ) 指标上分别有14.5%、6.5%和2.25%的提升,在EM指标上分别有7%、7%和8.5%的提升。这充分展示了ReaRAG即使使用较小规模的模型,也能具备强大的多跳推理能力。
3.4 消融实验
为评估模型的性能,进行了封闭-book性能实验和强推理能力影响实验。封闭-book实验评估语言模型的参数化知识,结果显示QwQ-32B在需要强推理的基准测试中表现优于GLM-4,但两者的参数化知识与使用外部知识的结果相比仍显不足。
在强推理能力影响实验中,研究人员微调了一个缺乏强推理能力的模型,并遵循相同的Thought-Action-Observation推理范式。结果表明,具有增强推理能力的ReaRAG-9B在多跳基准测试中始终优于缺乏推理能力的模型,在 ( ACC_{L} ) 指标上有6 - 11%的提升,在单跳NQ上有7%的提升。但在NQ上,EM指标的提升较小,在MuSiQue上EM指标甚至有所下降,这再次说明了EM指标在捕捉语言模型生成答案的可变性方面存在局限性。
四、ReaRAG模型的优势与局限性
4.1 优势
ReaRAG的优势体现在多个方面。它通过知识引导的推理链增强了LRMs的事实性,能够可靠地与外部知识源进行交互。在推理过程中,ReaRAG利用LRM的推理能力进行深思熟虑的思考,反思先前步骤,利用外部知识识别错误并优化推理,展现出强大的推理能力。与基于强化学习的方法相比,ReaRAG避免了在多跳问答中过度和冗余的搜索。
案例分析进一步展示了ReaRAG的强大推理能力。在处理关于人物关系、作品相关信息等多跳问题时,ReaRAG能够识别错误、解决歧义并修正推理路径,最终得出正确答案。例如,在判断“Philippe, Duke of Orléans”的祖母是谁的问题上,ReaRAG最初出现错误,但随后通过验证和重新推理,成功纠正错误并得出正确结论。
4.2 局限性
尽管ReaRAG在多跳问答任务中表现出色,但仍存在一些局限性。其动作空间目前仅限于search和finish,这限制了它处理更广泛问题的能力,无法执行如利用代码编译器进行编码任务、执行数学计算或进行实时网络搜索等操作。
数据构建效率方面,ReaRAG依赖LRM的强指令跟随能力来生成结构化响应进行微调,但大量数据因有效性问题被丢弃,导致计算效率低下和资源浪费。在推理延迟上,ReaRAG通过迭代推理来解决问题,虽然提高了准确性,但与单步生成答案的模型相比,推理时间增加,这在实时应用或对延迟有严格要求的场景中可能会限制其实用性。
ReaRAG作为一种增强事实性的推理模型,通过迭代规划推理步骤并利用外部知识确保推理链的正确性,在多跳问答任务中取得了显著的性能提升。它有效整合了推理模型与外部知识,增强了事实准确性,同时减少了基于强化学习的LRMs中过度思考的问题。
paper:https://arxiv.org/pdf/2503.21729
git:https://github.com/THU-KEG/ReaRAG