翻译:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Search-R1:通过强化学习训练LLM进行推理并利用搜索引擎

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

![[Pasted image 20250328124830.png]]

ABSTRACT

高效获取外部知识和最新信息对于大型语言模型(LLMs)的有效推理和文本生成至关重要。检索增强和工具使用训练方法将搜索引擎视为工具,但缺乏复杂的多轮检索灵活性或需要大规模监督数据。在推理过程中提示具备推理能力的高级LLM使用搜索引擎并非最优选择,因为LLM无法学习如何最佳地与搜索引擎交互。本文介绍了SEARCH-R1,这是DeepSeek-R1模型的扩展版本,其中LLM仅通过强化学习(RL)学习在逐步推理过程中自动生成(多个)搜索查询并进行实时检索。SEARCH-R1通过多轮搜索交互优化LLM的展开序列,利用检索标记遮罩实现稳定的RL训练,并采用简单的基于结果的奖励函数。在七个问答数据集上的实验表明,SEARCH-R1相较于SOTA基线模型分别提升了26%(Qwen2.5-7B)、21%(Qwen2.5-3B)和10%(LLaMA3.2-3B)的性能。本文还进一步提供了关于RL优化方法、LLM选择以及检索增强推理中的响应长度动态的经验见解。代码和模型检查点可在https://github.com/PeterGriffinJin/Search-R1获取。

1 INTRODUCTION

近年来,大型语言模型(LLMs)在自然语言理解和生成方面展现了卓越的能力 [Hendrycks et al., 2020; Clark et al., 2018]。尽管取得了这些成就,LLM在面对复杂推理任务 [Wei et al., 2022] 和从外部来源获取最新信息时仍面临挑战 [Jin et al., 2024]。解决这些局限性需要整合高级推理能力 [Huang & Chang, 2022] 和有效与搜索引擎交互的能力 [Schick et al., 2023]。

现有的将LLM与搜索引擎集成的方法通常分为两类:(1)检索增强生成(RAG)[Gao et al., 2023; Lewis et al., 2020] 和(2)将搜索引擎视为工具 [Yao et al., 2023; Schick et al., 2023]。RAG基于输入查询检索相关段落,并将其纳入LLM的上下文以生成内容 [Lewis et al., 2020]。这使得LLM在回答问题时能够利用外部知识。然而,RAG受到检索不准确性的限制 [Jin et al., 2024],并且缺乏多轮、多查询检索的灵活性,而这对复杂推理任务至关重要 [Yang et al., 2018]。另一种方法是提示或训练LLM利用工具,包括搜索引擎,作为其推理过程的一部分 [Qu et al., 2025; Trivedi et al., 2022a]。然而,基于提示的方法往往难以泛化,因为某些任务可能未在LLM预训练中遇到过。另一方面,基于训练的方法提供了更大的适应性,但依赖于大规模高质量标注的搜索与推理交互轨迹,因此难以有效扩展 [Schick et al., 2023]。

强化学习(RL)[Sutton et al., 1999; Kaelbling et al., 1996] 已成为增强LLM推理能力的强大范式 [Guo et al., 2025; Hou et al., 2025; Xie et al., 2025; Kumar et al., 2024]。值得注意的是,像OpenAI-o1 [Jaech et al., 2024] 和DeepSeek-R1 [Guo et al., 2025] 等模型利用了RL技术(例如PPO [Schulman et al., 2017] 和GRPO [Shao et al., 2024]),通过学习经验和反馈来改进逻辑推理和问题解决能力。经过RL训练后,即使仅基于结果奖励进行训练,模型也能学习到复杂的推理能力,包括自我验证 [Weng et al., 2022] 和自我纠正 [Kumar et al., 2024]。

然而,将强化学习应用于搜索与推理场景存在三个关键挑战:(1)RL框架与稳定性——目前尚不清楚如何有效地将搜索引擎整合到LLM的RL框架中,同时确保稳定优化,特别是在结合检索上下文时。(2)多轮交错推理与搜索——理想情况下,LLM应具备迭代推理和调用搜索引擎的能力,根据问题的复杂性动态调整其检索策略。(3)奖励设计——为搜索与推理任务设计有效的奖励函数并不简单,因为传统的奖励公式可能无法很好地推广到这一新范式。

为了解决这些挑战,我们引入了SEARCH-R1,一种新颖的强化学习(RL)框架,使LLM能够以交错的方式与搜索引擎交互并进行自己的推理。具体而言,SEARCH-R1引入了以下关键创新:(1)我们将搜索引擎建模为环境的一部分,支持交错LLM标记生成和搜索引擎检索的展开序列。SEARCH-R1兼容各种RL算法,包括PPO和GRPO,并应用检索标记遮罩以确保稳定的优化。(2)SEARCH-R1支持多轮检索和推理,其中搜索调用由<search>和</search>标记显式触发。检索内容被封装在<information>和</information>标记内,而LLM的推理步骤则被包裹在<think>和</think>标记内。最终答案使用<answer>和</answer>标记格式化,从而实现结构化的迭代决策。(3)我们采用了直接的结果导向奖励函数,避免了过程导向奖励的复杂性。我们的结果表明,这种最小化的奖励设计在搜索与推理场景中非常有效。SEARCH-R1可以被视为DeepSeek-R1 [Guo et al., 2025] 的扩展,后者主要专注于参数化推理,通过引入搜索增强的RL训练来提升检索驱动的决策能力。

总之,我们的主要贡献有三点:

  • 我们指出了将RL应用于LLM推理与搜索引擎调用的挑战。
  • 我们提出了SEARCH-R1,这是一种新颖的强化学习框架,支持LLM展开序列和RL优化与搜索引擎的结合,包括检索标记遮罩以稳定RL训练、多轮交错推理与搜索以支持复杂任务解决,以及简单而有效的结果导向奖励函数。
  • 我们进行了系统性实验,证明了SEARCH-R1的有效性,相较于SOTA基线模型,在三种LLM上分别实现了26%、21%和10%的平均相对改进。此外,我们提供了关于推理和搜索设置中RL的见解,包括RL方法选择、不同LLM选择和响应长度研究。

2 RELATED WORKS

2.1 Large Language Models and Retrieval

尽管大型语言模型(LLMs)[Zhao et al., 2023; Team, 2024; Achiam et al., 2023] 在推理 [Guo et al., 2025] 和编码 [Guo et al., 2024] 方面展现了卓越能力,但它们仍然缺乏领域特定知识 [Peng et al., 2023; Li et al., 2023],并且容易产生幻觉 [Zhang et al., 2023]。为了解决这些问题,搜索引擎 [Zhao et al., 2024] 广泛用于提供外部信息。将搜索引擎与LLM集成有两种主要方式:(1)检索增强生成(RAG)[Gao et al., 2023] 和(2)将搜索引擎视为工具 [Schick et al., 2023]。RAG [Lewis et al., 2020; Yue et al., 2024; Xiong et al., 2025] 通常遵循一轮检索和顺序生成流水线,其中搜索引擎基于输入查询获取相关信息,然后将其与查询连接并输入LLM。然而,该流水线在检索无关信息 [Jin et al., 2024] 和未能提供足够有用上下文 [Jiang et al., 2023] 方面存在问题。另一种方法是“搜索即工具”,其中LLM被提示或微调以与搜索引擎交互。IRCoT [Trivedi et al., 2022a] 和ReAct [Yao et al., 2023] 使用提示来引导迭代推理和搜索引擎调用,而Toolformer [Schick et al., 2023] 利用监督微调来增强搜索能力。然而,这些方法依赖于高质量标注轨迹,难以扩展。最近的工作 [Guo et al., 2025] 表明,强化学习可以使LLM仅使用结果奖励就能发展出高级推理技能,但其在搜索引擎调用场景中的潜力仍未被充分探索。

2.2 Large Language Models and Reinforcement Learning

强化学习(RL)[Kaelbling et al., 1996] 是一种学习范式,其中代理通过与环境交互并接收奖励形式的反馈来学习做出连续决策,目标是最大化长期累积奖励 [Sutton et al., 1999]。RL最初由Ouyang等人 [2022] 引入LLM调优,通过人类反馈的强化学习(RLHF)[Kaufmann et al., 2023] 实现。这种方法首先使用人类偏好数据训练奖励模型 [Lambert et al., 2024],然后指导基于RL的策略LLM调优,通常通过近端策略优化(PPO)算法实现。然而,PPO涉及多轮LLM优化,实施起来具有挑战性。为了简化基于RL的调优,提出了直接优化方法,如直接偏好优化(DPO)[Rafailov et al., 2023] 和SimPO [Meng et al., 2024]。虽然这些方法提供了计算效率,但它们存在离策略问题 [Pang et al., 2024],且无法始终与纯RL方法的性能相匹配。替代方案包括组相对策略优化(GRPO)[Shao et al., 2024],它通过从组分数中估计基线消除了对评论模型的需求,以及RLOO [Ahmadian et al., 2024],它引入了一种简化的REINFORCE风格 [Williams, 1992] 优化框架。尽管取得了这些进展,但RL在LLM驱动的搜索引擎交互和推理中的应用仍然很大程度上未被探索。

3 SEARCH-R1

![[Pasted image 20250328125051.png]]

在以下部分中,我们将详细介绍SEARCH-R1的设计,涵盖(1)带有搜索引擎的强化学习;(2)交错多轮搜索引擎调用的文本生成;(3)训练模板;以及(4)奖励模型设计。

3.1 Reinforcement Learning with a Search Engine

我们将带有搜索引擎$ R $的强化学习框架表述如下:
max ⁡ π a θ E x ∼ D , y ∼ π θ ( ⋅ ∣ x ; R ) [ r ϕ ( x , y ) − β D K L [ π θ ( y ∣ x ; R ) ∣ ∣ π r e f ( y ∣ x ; R ) ] ] , \max_{\pi_a^\theta} \mathbb{E}_{x \sim D, y \sim \pi_\theta(\cdot|x;R)} \left[ r_\phi(x, y) - \beta D_{KL} [\pi_\theta (y | x; R) || \pi_{ref}(y | x; R)] \right], πaθmaxExD,yπθ(x;R)[rϕ(x,y)βDKL[πθ(yx;R)∣∣πref(yx;R)]],
其中 π θ \pi_\theta πθ是策略LLM, π r e f \pi_{ref} πref是参考LLM, r ϕ r_\phi rϕ是奖励函数, D K L D_{KL} DKL是KL散度。不同于之前的LLM强化学习方法主要依赖于策略LLM π θ ( ⋅ ∣ x ) \pi_\theta(\cdot | x) πθ(x)生成展开序列 [Rafailov et al., 2023; Ouyang et al., 2022],我们的框架通过 π θ ( ⋅ ∣ x ; R ) \pi_\theta(\cdot | x; R) πθ(x;R)明确整合了检索交错推理,可以看作 π θ ( ⋅ ∣ x ) ⊕ R \pi_\theta(\cdot | x) \oplus R πθ(x)R,其中 N N N表示交错检索与推理。这在需要外部信息检索的推理密集型任务中实现了更有效的决策。展开过程的详细说明见第3.2节。

我们的方法基于两种成熟的策略梯度RL方法:近端策略优化(PPO)[Schulman et al., 2017] 和组相对策略优化(GRPO)[Shao et al., 2024; Guo et al., 2025],利用它们各自的优势来优化检索增强推理。

检索标记的损失遮罩。 在PPO和GRPO中,标记级损失在整个展开序列上计算。在SEARCH-R1中,展开序列由LLM生成的标记和外部段落中检索的标记组成。优化LLM生成的标记增强了模型与搜索引擎交互和执行推理的能力,但对检索标记应用相同的优化可能导致意外的学习动态。为了解决这个问题,我们引入了检索标记的损失遮罩,确保策略梯度目标仅在LLM生成的标记上计算,同时排除检索内容的优化过程。这种方法在保持检索增强生成灵活性的同时稳定了训练。

PPO + 搜索引擎。 近端策略优化(PPO)[Schulman et al., 2017] 是一种流行的演员-评论家强化学习算法,常用于RL阶段微调大型语言模型(LLMs)[Ouyang et al., 2022]。在我们的推理加搜索引擎调用场景中,它通过最大化以下目标来优化LLM:
J P P O ( θ ) = E x ∼ D , y ∼ π o l d ( ⋅ ∣ x ; R ) [ 1 ∣ y ∣ ∑ t = 1 : I ( y t ) = 1 ∣ y ∣ min ⁡ ( π θ ( y t ∣ x , y < t ; R ) π r e f ( y t ∣ x , y < t ; R ) A t , clip ( π θ ( y t ∣ x , y < t ; R ) π r e f ( y t ∣ x , y < t ; R ) , 1 − ϵ , 1 + ϵ ) A t ) ] , J_{PPO} (\theta) = \mathbb{E}_{x \sim D, y \sim \pi_{old} (\cdot|x;R)} \left[ \frac{1}{|y|} \sum_{t=1:I(y_t)=1}^{|y|} \min \left( \frac{\pi_\theta (y_t|x, y_{<t}; R)}{\pi_{ref}(y_t |x, y_{<t}; R)} A_t, \text{clip} \left( \frac{\pi_\theta (y_t |x, y_{<t}; R)}{\pi_{ref}(y_t|x, y_{<t}; R)}, 1-\epsilon, 1+\epsilon \right) A_t \right) \right], JPPO(θ)=ExD,yπold(x;R) y1t=1:I(yt)=1ymin(πref(ytx,y<t;R)πθ(ytx,y<t;R)At,clip(πref(ytx,y<t;R)πθ(ytx,y<t;R),1ϵ,1+ϵ)At) ,
其中 π θ \pi_\theta πθ π r e f \pi_{ref} πref分别代表当前和参考策略模型。变量 x x x表示从数据集 D D D中抽取的输入样本,而 y y y表示模型生成的输出,与搜索引擎调用结果交错,从参考策略 π r e f ( y ∣ x ; R ) \pi_{ref}(y | x; R) πref(yx;R)采样并通过搜索引擎 R R R检索。 I ( y t ) I(y_t) I(yt)是标记损失遮罩操作。如果 y t y_t yt是LLM生成的标记,则 I ( y t ) = 1 I(y_t)=1 I(yt)=1;如果 y t y_t yt是检索的标记,则 I ( y t ) = 0 I(y_t)=0 I(yt)=0 ϵ \epsilon ϵ是PPO中引入的用于稳定训练的裁剪相关超参数。优势估计 A t A_t At使用广义优势估计(GAE)[Schulman et al., 2015] 计算,基于未来奖励 { r ≥ t } \{r_{\geq t}\} {rt}和学习的价值函数 V ϕ V_\phi Vϕ

GRPO + 搜索引擎。 为了提高策略优化的稳定性并避免对额外价值函数近似的需要,Shao等人 [2024] 提出了组相对策略优化(GRPO)。GRPO通过利用多个采样输出的平均奖励作为基线,而不是依赖于学习的价值函数,区别于近端策略优化(PPO)。具体而言,对于每个输入问题 x x x,GRPO从参考策略 π r e f \pi_{ref} πref中采样一组响应 { y 1 , y 2 , … , y G } \{y_1, y_2, \dots, y_G\} {y1,y2,,yG}。然后通过最大化以下目标函数优化策略模型:
J G R P O ( θ ) = E x ∼ D , { y i } i = 1 G ∼ π o l d ( ⋅ ∣ x ; R ) [ 1 G ∑ i = 1 G 1 ∣ y i ∣ ∑ t = 1 : I ( y i , t ) = 1 ∣ y i ∣ min ⁡ ( π θ ( y i , t ∣ x , y i , < t ; R ) π r e f ( y i , t ∣ x , y i , < t ; R ) A ^ i , t , clip ( π θ ( y i , t ∣ x , y i , < t ; R ) π r e f ( y i , t ∣ x , y i , < t ; R ) , 1 − ϵ , 1 + ϵ ) A ^ i , t ) − β D K L [ π θ ∣ ∣ π r e f ] ] , J_{GRPO} (\theta) = \mathbb{E}_{x \sim D, \{y_i\}_{i=1}^G \sim \pi_{old} (\cdot|x;R)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|y_i|} \sum_{t=1:I(y_{i,t})=1}^{|y_i|} \min \left( \frac{\pi_\theta (y_{i,t}|x, y_{i,<t}; R)}{\pi_{ref}(y_{i,t} |x, y_{i,<t}; R)} \hat{A}_{i,t}, \text{clip} \left( \frac{\pi_\theta (y_{i,t}|x, y_{i,<t}; R)}{\pi_{ref}(y_{i,t}|x, y_{i,<t}; R)}, 1-\epsilon, 1+\epsilon \right) \hat{A}_{i,t} \right) - \beta D_{KL} [\pi_\theta || \pi_{ref}] \right], JGRPO(θ)=ExD,{yi}i=1Gπold(x;R) G1i=1Gyi1t=1:I(yi,t)=1yimin(πref(yi,tx,yi,<t;R)πθ(yi,tx,yi,<t;R)A^i,t,clip(πref(yi,tx,yi,<t;R)πθ(yi,tx,yi,<t;R),1ϵ,1+ϵ)A^i,t)βDKL[πθ∣∣πref] ,
其中 ϵ \epsilon ϵ β \beta β是超参数, A ^ i , t \hat{A}_{i,t} A^i,t表示优势,基于每组输出的相对奖励计算。这种方法避免了在计算 A ^ i , t \hat{A}_{i,t} A^i,t时引入额外复杂性。 I ( y i , t ) I(y_{i,t}) I(yi,t)是标记损失遮罩操作。如果 y i , t y_{i,t} yi,t是LLM生成的标记,则 I ( y i , t ) = 1 I(y_{i,t})=1 I(yi,t)=1;如果 y i , t y_{i,t} yi,t是检索的标记,则 I ( y i , t ) = 0 I(y_{i,t})=0 I(yi,t)=0。此外,GRPO通过直接将KL散度添加到损失函数中进行正则化,而不是将其作为惩罚项纳入奖励函数。在计算KL散度损失 D K L D_{KL} DKL时也应用了检索标记遮罩。

3.2 Text Generation with Interleaved Multi-turn Search Engine Call

在本节中,我们描述了交错多轮搜索引擎调用的LLM响应生成展开过程,公式化为:
![[Pasted image 20250328125210.png]]

我们的方法遵循一个迭代框架,其中LLM在文本生成和外部搜索引擎查询之间交替。具体而言,系统指令引导LLM在需要外部检索时将其搜索查询封装在两个指定的搜索调用标记<search>和</search>之间。在生成序列中检测到这些标记后,系统提取搜索查询,查询搜索引擎并检索相关结果。检索到的信息随后被封装在特殊检索标记<information>和</information>中,并附加到正在进行的展开序列中,作为下一个生成步骤的额外上下文。此过程迭代继续,直到满足以下条件之一:(1)搜索引擎调用预算耗尽,或(2)模型生成最终响应,该响应被封装在指定的答案标记<answer>和</answer>之间。完整的工作流程见算法1。

3.3 Training Template

![[Pasted image 20250328125320.png]]

为了训练SEARCH-R1,我们首先创建一个简单的模板,指导初始LLM遵循我们的预定义指令。如表1所示,该模板以迭代方式将模型的输出结构化为三部分:首先是推理过程,然后是搜索引擎调用功能,最后是答案。我们故意将约束限制在此结构化格式中,避免任何特定内容的偏见,例如强制反思推理和搜索引擎调用或认可特定的问题解决方法。这确保了模型在RL过程中的自然学习动态保持可观测且无偏见。

3.4 Reward Modeling

奖励函数作为主要的训练信号,指导强化学习中的优化过程。为了训练SEARCH-R1,我们采用基于规则的奖励系统,仅包含最终结果奖励,评估模型响应的正确性。例如,在事实推理任务中,可以通过基于规则的标准(如精确字符串匹配)评估正确性。
r ϕ ( x , y ) = E M ( a p r e d , a g o l d ) , r_\phi(x, y) = EM(a_{pred}, a_{gold}), rϕ(x,y)=EM(apred,agold),
其中 a p r e d a_{pred} apred是从响应 y y y中提取的最终答案, a g o l d a_{gold} agold是真实答案。与Guo等人 [2025] 不同,我们不包含格式奖励,因为我们学习到的模型已经表现出强大的结构依从性。我们将更复杂格式奖励的探索留待未来工作。此外,我们故意避免训练神经奖励模型进行结果或过程评估,遵循Guo等人 [2025] 的做法。这一决定是由于神经奖励模型在大规模强化学习中容易受到奖励黑客攻击的影响,以及重新训练这些模型带来的额外计算成本和复杂性。
![[Pasted image 20250328125345.png]]

4 MAIN RESULTS

4.1 Datasets

我们在七个基准数据集上评估了SEARCH-R1,分类如下:
通用问答:NQ [Kwiatkowski et al., 2019]、TriviaQA [Joshi et al., 2017] 和PopQA [Mallen et al., 2022]。
多跳问答:HotpotQA [Yang et al., 2018]、2WikiMultiHopQA [Ho et al., 2020]、Musique [Trivedi et al., 2022b] 和Bamboogle [Press et al., 2022]。
这些数据集涵盖了多样化的搜索与推理挑战,使我们能够对SEARCH-R1在单轮和多跳检索场景中的表现进行全面评估。

4.2 Baselines

为了评估SEARCH-R1的有效性,我们将其与以下基线方法进行比较:
无检索推理:直接推理和思维链(CoT)推理 [Wei et al., 2022]。
带检索推理:检索增强生成(RAG)[Lewis et al., 2020]、IRCoT [Trivedi et al., 2022a] 和Search-o1 [Li et al., 2025]。
基于微调的方法:监督微调(SFT)[Chung et al., 2024] 和无搜索引擎的强化学习微调(R1)[Guo et al., 2025]。
这些基线涵盖了广泛的检索增强和微调方法,允许对SEARCH-R1在零样本和学习检索设置中的全面评估。

为了在不同方法之间进行公平比较,我们使用相同的检索器、知识语料库、训练数据和LLM。更多细节见第4.3节。

4.3 Experimental Setup

我们使用三种类型的模型进行实验:Qwen-2.5-3B(基础/指令版)和Qwen-2.5-7B(基础/指令版)[Yang et al., 2024],以及Llama-3.2-3B(基础/指令版)[Dubey et al., 2024]。对于检索,我们使用2018年维基百科转储 [Karpukhin et al., 2020] 作为知识源,E5 [Wang et al., 2022] 作为检索器。为了确保公平比较,我们遵循Lin等人 [2023] 的做法,将所有基于检索方法的检索段落数量设置为三。

对于训练,我们将NQ和HotpotQA的训练集合并形成一个统一的数据集,用于SEARCH-R1和其他基于微调的基线。评估在所有七个数据集的测试或验证集上进行,以评估域内和域外性能。按照Yu等人 [2024] 的做法,使用精确匹配(EM)作为评估指标。对于推理风格的基线,我们使用指令模型,因为基础模型无法遵循指令。对于RL调优方法,实验在基础模型和指令模型上进行。

对于SEARCH-R1训练,在PPO训练中,策略LLM学习率设置为1e-6,价值LLM学习率设置为1e-5。广义优势估计(GAE)参数为 λ = 1 \lambda = 1 λ=1 γ = 1 \gamma = 1 γ=1。在GRPO训练中,策略LLM学习率设置为1e-6,每次提示采样五个响应。我们使用精确匹配(EM)计算结果奖励。除非另有说明,PPO用作默认RL方法,PPO和GRPO之间的详细比较见第5.1节。

4.4 Performance

![[Pasted image 20250328125445.png]]

将SEARCH-R1与基线方法在七个数据集上的主要结果比较见表2。从结果中,我们得出以下关键观察:

  • SEARCH-R1持续优于强大基线方法。 我们在Qwen2.5-7B、Qwen2.5-3B和LLaMA3.2-3B上分别实现了26%、21%和10%的平均相对改进。这些收益在域内评估(即NQ和HotpotQA)和域外评估(即TriviaQA、PopQA、2WikiMultiHopQA、Musique和Bamboogle)中均成立。
  • SEARCH-R1超越了无检索的LLM推理RL训练(R1)[Guo et al., 2025]。 这符合预期,因为将搜索融入LLM推理提供了访问相关外部知识的机会,从而提高了整体性能。
  • SEARCH-R1对基础模型和指令微调模型均有效。 这表明DeepSeek-R1-Zero风格的RL与基于结果的奖励 [Guo et al., 2025] 可以成功应用于带搜索的推理,扩展了其在纯推理场景中既定的有效性。
  • SEARCH-R1在不同基础LLM中具有泛化能力,包括Qwen2.5和LLaMA3.2。 这与RL在数学推理中的发现形成对比,在数学推理中,RL仅对某些基础LLM有效 [Zeng et al., 2025]。我们的结果表明,搜索增强的RL在模型系列中具有更广泛的应用性。

5 ANALYSIS

5.1 Different RL methods: PPO vs. GRPO

![[Pasted image 20250328125751.png]]

我们使用PPO和GRPO作为基础RL方法评估SEARCH-R1,在LLaMA3.2-3B和Qwen2.5-3B模型上进行实验。训练动态比较见图2,揭示了以下见解:

  • GRPO在所有情况下收敛速度比PPO快。 这是因为PPO依赖于评论模型,需要几个热身步骤才能开始有效训练。
  • PPO表现出更高的训练稳定性。 如图2(b)所示,当应用于LLaMA3.2-3B-Instruct模型时,GRPO导致奖励崩溃,而PPO在不同LLM架构中保持稳定。
  • PPO和GRPO的最终训练奖励相当。 尽管在收敛速度和稳定性上存在差异,但两种方法都达到了相似的最终奖励值,表明两者均可用于优化SEARCH-R1。
    ![[Pasted image 20250328125801.png]]

评估结果见表3,揭示了以下关键发现:

  • GRPO总体优于PPO。 在Qwen2.5-3B和LLaMA3.2-3B上,GRPO均实现了更高的平均性能,展示了其在优化检索增强推理方面的有效性。
  • 指令变体优于基础变体。 对于Qwen2.5-3B,SEARCH-R1-Instruct(GRPO)实现了最高的整体平均得分(0.365),优于所有其他配置。对于LLaMA3.2-3B,性能最佳的变体是SEARCH-R1-Base(GRPO),平均得分为0.324,紧随其后的是SEARCH-R1-Instruct(PPO),得分为0.322。

5.2 Base vs. Instruct LLMs

![[Pasted image 20250328125827.png]]

我们分析了SEARCH-R1在基础LLM和指令微调LLM上的训练动态。实验在三个模型变体上进行:LLaMA3.2-3B、Qwen2.5-3B和Qwen2.5-7B。如图3所示,我们观察到指令微调模型比基础模型收敛更快,并且从更高的初始性能开始。然而,在训练后,两种模型类型的最终性能仍然高度相似。这一发现表明,尽管通用后训练加速了推理加搜索场景中的学习,但强化学习可以随着时间推移有效弥合差距,使基础模型达到可比性能。

5.3 Response Length Study

我们使用LLaMA3.2-3b-base模型进行实验,训练SEARCH-R1在NQ上分析训练奖励和响应长度在训练过程中的动态。
![[Pasted image 20250328125848.png]]

结果见图4(a),揭示了以下关键趋势:

  1. 早期阶段(前100步): 响应长度急剧下降,而训练奖励略有增加。在此阶段,基础模型学会了消除过多的填充词,并开始适应任务要求。
  2. 中期阶段(100-130步): 响应长度和训练奖励显著增加。此时,LLM学会了调用搜索引擎,由于检索段落导致响应变长。训练奖励大幅改善,因为模型变得更善于利用搜索结果。
  3. 后期阶段(130步之后): 响应长度趋于稳定,训练奖励继续略有增加。此时,模型已经学会了有效使用搜索引擎,并专注于优化其搜索查询。由于NQ是一个相对简单的任务,响应长度稳定在约500个标记,表明收敛。

5.4 Study of Retrieved Tokens Loss Masking

在第3.1节中,我们介绍了检索标记的标记级损失遮罩以防止意外优化行为。在这里,我们通过分析其对训练稳定性和模型性能的影响来实证评估其有效性。

我们在LLaMA3.2-3b-base模型上进行实验,比较应用和不应用检索标记损失遮罩的训练动态。如图4(b)所示,应用检索标记遮罩带来了更大的LLM改进,减轻了意外优化效果并确保了更稳定的训练动态。
![[Pasted image 20250328125917.png]]

性能比较见表4,表明使用检索标记损失遮罩训练的SEARCH-R1始终优于没有遮罩的变体。

5.5 Case Studies

为了更深入地了解SEARCH-R1,我们使用Qwen2.5-7B-Base进行案例研究,将其行为与无搜索引擎的RL [Guo et al., 2025] 进行比较。
![[Pasted image 20250328125938.png]]

结果见表5,揭示了以下关键观察:

  • 交错推理与检索增强了问题分析能力: SEARCH-R1使LLM能够通过多轮检索进行深入推理,而无搜索的RL仅依赖于模型的内部知识。通过结合检索段落,SEARCH-R1使LLM能够迭代优化其推理,从而产生更有依据和准确的响应。
  • 通过迭代检索实现自我验证: 我们观察到,在第二轮检索后,LLM已经收集了足够的信息来回答问题。然而,SEARCH-R1执行了额外的检索步骤以自我验证其结论,进一步增强其对最终响应的信心。这一现象与无检索的LLM推理RL的发现一致 [Guo et al., 2025],突出了强化学习如何鼓励在搜索增强设置中进行验证驱动的推理。

6 CONCLUSION

在这项工作中,我们介绍了SEARCH-R1,这是一种新颖的强化学习框架,使大型语言模型(LLM)能够交错自我推理与实时搜索引擎交互。与现有的检索增强生成(RAG)方法相比,后者缺乏多轮检索的灵活性,或者工具使用方法需要大规模监督训练数据,SEARCH-R1通过强化学习优化LLM展开序列,允许自主查询生成和检索信息的战略利用。通过对七个数据集的广泛实验,我们证明了SEARCH-R1显著增强了LLM处理需要实时外部知识的复杂推理任务的能力。我们的分析还提供了关于搜索增强推理中RL训练策略的关键见解。展望未来,未来工作可以探索扩展SEARCH-R1以支持更广泛的搜索策略,包括更复杂的奖励机制、基于不确定性的动态检索调整以及与网络搜索之外的多样化信息源的集成。研究其在多模态推理任务中的适用性也颇具前景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值