大语言模型推理的强化学习现状

最新推荐文章于 2025-05-23 10:18:27 发布

栋搞西搞

最新推荐文章于 2025-05-23 10:18:27 发布

阅读量639

点赞数 14

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/thomas20/article/details/147499509

版权

本文翻译自国外科技博主 Sebastian Raschka 最近的一篇文章《The State of Reinforcement Learning for LLM Reasoning》

Sebastian Raschka 是一位极具影响力的人工智能专家。他博士毕业于密歇根州立大学，2018 - 2023 年在威斯康星大学麦迪逊分校担任助理教授。现在是 Lightning AI 的资深研究工程师。他专注于机器学习、深度学习和大型语言模型等领域，在 GitHub 上的项目 LLMs-from-scratch 获得了很高的星标数。他还著有《Python 机器学习》等畅销书，并且通过博客和杂志分享 AI 研究见解，在 X 上有 298.3k 粉丝。

这篇文章逻辑清晰、通俗易懂，能将复杂的数学原理与公式阐释得简洁明了。文中以深入浅出的方式，介绍了大语言模型推理中强化学习的最新发展，涵盖推理模型概念定义、RLHF、PPO、GRPO、RLVR 等核心算法与基础概念，分析当前强化学习在推理模型中的应用现状，并对后续研发方向提出推荐与展望，极具参考价值。

若具备英文阅读能力，推荐阅读原文（https://substack.com/home/post/p-161572341），感受原汁原味的内容。同时，为方便大家阅读，我也提供了中文译本，力求完整保留作者的表达与核心思想，希望能对各位有所助益。

正文引子

这个月发生了很多事情，尤其是像 GPT-4.5 和 Llama 4 这样的新旗舰模型发布了。但你可能已经注意到，人们对这些模型发布的反应相对平淡。为什么呢？一个原因可能是 GPT-4.5 和 Llama 4 仍然是传统模型，这意味着它们在训练时没有为推理而进行明确的强化学习。

与此同时，像 xAI 和 Anthropic 这样的竞争对手已经在他们的模型中加入了更多的推理能力和功能。例如，xAI 的 Grok 模型和 Anthropic 的 Claude 模型界面，对于某些特定模型现在都包含一个 “思考”（或 “深度思考”）按钮，可明确开启推理功能。

无论如何，人们对 GPT-4.5 和 Llama 4（非推理型）模型反应平淡，这表明我们正在接近仅靠扩大模型规模和增加数据量所能达到的极限。

然而，OpenAI 最近发布的 o3 推理模型表明，当有策略地投入计算资源时，尤其是通过为推理任务量身定制的强化学习方法，仍然有相当大的改进空间。（根据 OpenAI 员工在最近的直播中所说，与 o1 相比，o3 在训练时使用的计算资源是 o1 的 10 倍。）

虽然仅靠推理并非万能的解决方案，但到目前为止，在具有挑战性的任务中，它确实能可靠地提高模型的准确性和解决问题的能力。而且我预计，以推理为重点的训练后处理将在未来的大语言模型（LLM）流程中成为标准做法。

因此，在本文中，让我们来探索通过强化学习在推理方面的最新进展。

由于这是一篇较长的文章，我在下面提供了一个目录概览。要浏览目录，请在网页视图中使用左侧的滑块。

理解推理模型
基于人类反馈的强化学习（RLHF）基础：一切的开端
近端策略优化算法（PPO）简介：强化学习的主力算法
强化学习算法：从近端策略优化算法（PPO）到群组相对策略优化算法（GRPO）
强化学习奖励建模：从基于人类反馈的强化学习（RLHF）到基于价值与奖励的强化学习（RLVR）
DeepSeek-R1 推理模型是如何训练的
从近期关于训练推理模型的强化学习论文中得到的经验教训
关于训练推理模型的值得关注的研究论文

小贴士：如果你已经熟悉推理基础、强化学习（RL）、近端策略优化算法（PPO）和群组相对策略优化算法（GRPO），请随意直接跳转到 “从近期关于训练推理模型的强化学习论文中得到的经验教训” 这一部分，该部分总结了近期推理研究论文中有趣的见解。

1. 理解推理模型

当然，一个绕不开的关键问题就是推理的定义。简而言之，推理涉及到能让大语言模型（LLM）更擅长处理复杂任务的推断和训练技术。

为了更详细地说明（到目前为止）这是如何实现的，我想对推理作如下定义：

在大语言模型的范畴内，推理是指模型在给出最终答案之前生成中间步骤的能力。这一过程通常被称为思维链（CoT）推理。在思维链推理中，大语言模型会明确生成一系列结构化的陈述或计算步骤，以展示它是如何得出结论的。

下面是一张图以及相应的定义说明。

如果你是推理模型方面的新手，想要更全面的介绍，我推荐我之前写的文章：

从零开始初探推理：第一章(https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch)
理解推理型大语言模型(https://magazine.sebastianraschka.com/p/understanding-reasoning-llms)

现在，正如本节开头所暗示的那样，大语言模型的推理能力可以通过两种方式得到提升，就像 OpenAI 的一篇博客文章中的一张图很好地展示的那样：

在我之前的文章中：大语言模型推理模型推理的现状(https://magazine.sebastianraschka.com/p/state-of-llm-reasoning-and-inference-scaling)，我只关注了测试时的计算方法。在本文中，我终于想要仔细研究一下训练方法了。

2. 基于人类反馈的强化学习（RLHF）基础：一切的开端

用于构建和改进推理模型的强化学习（RL）训练方法，或多或少都与用于开发和对齐传统大语言模型（LLM）的基于人类反馈的强化学习（RLHF）方法相关。所以，在讨论基于强化学习训练的推理特定修改之前，我想先简单回顾一下 RLHF 是如何运作的。

传统的大语言模型通常要经历三个训练步骤：

预训练
监督微调
对齐（通常基于 RLHF 方法）

“原始” 的大语言模型对齐方法是基于人类反馈的强化学习（RLHF），这是按照 InstructGPT 论文中开发大语言模型时所采用的标准方法之一，该论文描述了用于开发首个 ChatGPT 模型的方法。

基于人类反馈的强化学习（RLHF）的最初目标是使大语言模型与人类偏好保持一致。例如，假设你多次使用一个大语言模型，该模型针对给定的提示生成了多个答案。基于人类反馈的强化学习（RLHF）会引导大语言模型生成更多你偏好的答案风格。（通常，RLHF 也用于对大语言模型进行安全性调整：以避免分享敏感信息、使用脏话等等。）

如果你不了解基于人类反馈的强化学习（RLHF），这里有一段我几年前做的一次演讲的节选，它能在不到五分钟的时间内解释基于人类反馈的强化学习（RLHF）：

下面的段落以文字形式描述了基于人类反馈的强化学习（RLHF）。

基于人类反馈的强化学习（RLHF）流程会采用一个预训练模型，并以监督学习的方式对其进行微调。这一微调过程还不是强化学习的部分，而主要是一个前提条件。

然后，基于人类反馈的强化学习（RLHF）会使用一种称为近端策略优化算法（PPO）的算法，进一步对齐大语言模型。（请注意，除了近端策略优化算法（PPO）之外，还有其他算法可供使用；我特别提到近端策略优化算法（PPO），是因为它最初被用于基于人类反馈的强化学习（RLHF）中，并且至今仍是最常用的算法。）

为了便于理解，我们将基于人类反馈的强化学习（RLHF）流程分为三个独立的步骤来分析：

步骤 1（前提条件）：对预训练模型进行监督微调（SFT）
步骤 2：创建奖励模型
步骤 3：通过近端策略优化算法（PPO）进行微调

如下所示，基于人类反馈的强化学习（RLHF）步骤 1 是一个监督微调步骤，目的是创建用于进一步基于人类反馈的强化学习（RLHF）微调的基础模型。

在基于人类反馈的强化学习（RLHF）的步骤 1 中，我们创建或抽取提示（比如从数据库中），并让人类撰写高质量的回复。然后，我们使用这个数据集以监督学习的方式对预训练的基础模型进行微调。如前所述，严格来讲这并不是强化学习训练的一部分，而仅仅是一个先决条件。

在基于人类反馈的强化学习（RLHF）的步骤 2 中，我们接着使用经过监督微调（SFT）的这个模型来创建一个奖励模型，如下所示。

如上图所示，对于每个提示，我们从前一步微调后的大语言模型中生成四个回复。然后，人工标注人员根据他们的偏好对这些回复进行排序。尽管这个排序过程很耗时，但它可能比创建用于监督微调的数据集所耗费的人力要少一些。这是因为对回复进行排序可能比撰写回复要简单。

在整理好包含这些排序的数据集后，我们可以设计一个奖励模型，该模型会为基于人类反馈的强化学习（RLHF）步骤 3 中的后续优化阶段输出一个奖励分数。这里的思路是，奖励模型取代了耗费人力的人工排序并使其自动化，从而使得在大型数据集上进行训练成为可能。

这个奖励模型（RM）通常源自前一步监督微调（SFT）中创建的大语言模型。为了将基于人类反馈的强化学习（RLHF）步骤 1 中的模型转变为一个奖励模型，其输出层（下一个词预测的分类层）会被替换为一个回归层，该回归层有一个单一的输出节点。

基于人类反馈的强化学习（RLHF）流程的第三步是使用奖励模型（RM）对之前经过监督微调（SFT）的模型进行微调，如下图所示。

在基于人类反馈的强化学习（RLHF）的步骤 3，也就是最后一个阶段，我们现在正基于在步骤 2 中创建的奖励模型所给出的奖励分数，使用近端策略优化算法（PPO）来更新经过监督微调（SFT）的模型。

3. 近端策略优化算法（PPO）简介：强化学习的主力算法

如前所述，最初的基于人类反馈的强化学习（RLHF）方法使用了一种名为近端策略优化算法（PPO, Proximal Policy Optimization）的强化学习算法。

近端策略优化算法（PPO）的开发是为了提高训练策略的稳定性和效率。（在强化学习中，“策略” (Policy)指的就是我们想要训练的模型；在这种情况下，策略 = 大语言模型（LLM））。

近端策略优化算法（PPO）背后的一个关键思想是，它限制了在每次更新步骤中策略被允许改变的程度。这是通过使用一个裁剪损失函数来实现的，该函数有助于防止模型进行过大的更新，以免破坏训练的稳定性。

除此之外，近端策略优化算法（PPO）在损失函数中还包含了一个 KL 散度惩罚项。这个项会将当前的策略（正在训练的模型）与原始的经过监督微调（SFT）的模型进行比较。这有助于使更新后的模型与原始模型保持合理的接近程度。毕竟，其目的是对模型进行偏好调整，而不是完全重新训练。

这就是 “近端策略优化算法（proximal policy optimization）” 中 “近端（proximal）” 一词的由来：该算法试图在允许模型有所改进的同时，使更新后的模型与现有模型保持接近。为了鼓励模型进行一定程度的探索，近端策略优化算法（PPO）还添加了一个熵奖励项，这鼓励模型在训练过程中使输出多样化。

在接下来的段落中，我想介绍一些更多的术语，以便在相对较高的层面上阐述近端策略优化算法（PPO）。不过，其中涉及了很多专业术语，所以在继续之前，我尝试在下面的图中总结了关键术语。

下面，我打算通过伪代码来说明 PPO 的关键步骤。

此外，为了使其更直观，我还将使用一个类比：想象你是一位经营小型外卖服务的厨师。你不断尝试新的食谱变体以提高顾客满意度。你的总体目标是根据顾客反馈（奖励）来调整你的食谱（策略）。

1. 计算新策略与旧策略下下一个 token 概率的比率

ratio = new_policy_prob / old_policy_prob

(翻译: 比率 = 新策略概率 / 旧策略概率)

简而言之，这是在检查我们的新食谱与旧食谱有多大不同。

旁注：关于 “新策略概率”，我们尚未使用最终更新的策略。我们使用的是当前版本的策略（即我们正在训练中的模型）。然而，按照惯例，我们称之为 “新”。所以，尽管你仍在试验，但按照惯例，我们将你当前的方案称为 “新策略”。

2. 将该比率乘以行动的好坏程度（称为优势）

raw_score = ratio * advantage

(翻译: 原始得分 = 比率 × 优势)

在这里，为了简单起见，我们可以假设优势是根据奖励信号计算的：

advantage = actual_reward - expected_reward

(翻译: 优势 = 实际奖励 - 预期奖励)

在厨师的类比中，我们可以将优势视为新菜品的表现如何：

advantage = customer_rating - expected_rating

(翻译: 优势 = 顾客评分 - 预期评分)

例如，如果一位顾客给新菜品打了 9 分（满分 10 分），而顾客通常给我们打 7 分，那么优势就是 +2。

请注意，这是一种简化。实际上，这涉及到广义优势估计（GAE），为了不使文章过于冗长，我在此省略了。然而，有一个重要的细节需要提及，预期奖励是由一个所谓的 “评论家”（critic model, 有时也称为 “价值模型” value model）计算的，而奖励模型计算实际奖励。也就是说，优势计算涉及另外两个模型，它们的大小通常与我们正在微调的原始模型相同。

在这个类比中，我们可以将这个评论家或价值模型想象成我们在将新菜品提供给顾客之前请其试吃的朋友。我们还请我们的朋友估计顾客会给它打多少分（即预期奖励）。奖励模型则是实际给出反馈的顾客（即实际奖励）。

3. 计算一个裁剪后的得分

如果新策略变化太大（例如，比率 > 1.2 或 < 0.8），我们将按如下方式裁剪比率：

clipped_ratio = clamp(ratio, 0.8, 1.2)

clipped_score = clipped_ratio * advantage

翻译:

裁剪后的比率 = clamp (比率，0.8, 1.2)

裁剪后的得分 = 裁剪后的比率 × 优势

在类比中，想象新食谱得到了特别好（或特别差）的评价。我们可能会忍不住现在就彻底改变整个菜单。但这是有风险的。所以，相反，我们限制了目前食谱可以改变的程度。（例如，也许我们把菜做得更辣了，而那个顾客碰巧喜欢吃辣，但这并不意味着其他人也会喜欢。）

4. 然后我们使用原始得分和裁剪后得分中较小的那个

if advantage >= 0:

final_score = min(raw_score, clipped_score)

else:

final_score = max(raw_score, clipped_score)

翻译:

如果优势 >= 0：
最终得分 = min (原始得分，裁剪后得分)
否则：
最终得分 = max (原始得分，裁剪后得分)

同样，这与保持谨慎有关。例如，如果优势是正的（新行为更好），我们会限制奖励。这是因为我们不想过度相信可能是巧合或运气的好结果。

如果优势是负的（新行为更差），我们会限制惩罚。这里的想法是类似的。即我们不想对一个坏结果过度反应，除非我们非常确定。

简而言之，如果优势是正的，我们使用两个得分中较小的那个（以避免过度奖励），如果优势是负的，则使用较大的那个（以避免过度惩罚）。

在类比中，这确保了如果一个食谱的表现比预期好，我们不会过度奖励它，除非我们有信心。如果它表现不佳，我们也不会过度惩罚它，除非它一直都很差。

5. 计算损失

这个最终得分是我们在训练过程中要最大化的（通过将得分取负后使用梯度下降来最小化）。此外，我们还添加了一个 KL 惩罚项，其中 β 是惩罚强度的超参数：

loss = -final_score + β * KL(new_policy || reference_policy)

损失 = - 最终得分 + β × KL (新策略 || 参考策略)

在类比中，我们添加这个惩罚是为了确保新食谱与我们原来的风格不会相差太大。这可以防止你每周都 “彻底改变厨房”。例如，我们不希望一家意大利餐厅突然变成烧烤店。

这里介绍了很多信息，所以我通过下面的图在大型语言模型的背景下用一个具体的数字例子进行了总结。但如果觉得太复杂，你可以跳过它；你应该能够很好地理解文章的其余部分。

我承认我对 PPO 的讲解可能有点过头了。但一旦写出来，就很难删掉了。我希望你们中的一些人会觉得它有用！

话虽如此，下一节相关的主要要点是，PPO 涉及多个模型：

Policy 策略，即已经过监督微调（SFT）训练且我们希望进一步对齐的大型语言模型。
Reward Model 奖励模型，这是一个经过训练以预测奖励的模型（见 RLHF 的步骤 2）。
The Critic 评论家，这是一个可训练的模型，用于估计奖励。
A reference model 一个参考模型（原始策略），我们用它来确保策略不会偏离太多。

顺便说一下，你可能想知道为什么我们既需要奖励模型又需要评论家模型。奖励模型通常在使用 PPO 训练策略之前进行训练。它是为了将人类评判的偏好标签自动化，并且它为策略大型语言模型生成的完整响应给出分数。

相比之下，评论家评估部分响应。我们用它来创建最终响应。虽然奖励模型通常保持不变，但评论家模型在训练过程中会被更新，以便更好地估计奖励模型产生的奖励。

关于 PPO 的更多细节超出了本文的范围，但感兴趣的读者可以在 InstructGPT 论文之前的这四篇论文中找到数学细节：

（1）在 2016 年发表的《Asynchronous Methods for Deep Reinforcement Learning》介绍了策略梯度方法，作为基于深度学习的强化学习中 Q - 学习的替代方法。 https://arxiv.org/abs/1602.01783
（2）在 2017 年发表的《Proximal Policy Optimization Algorithms》提出了一种改进的基于近端策略的强化学习过程，它比上述普通策略优化算法更具数据效率和可扩展性。https://arxiv.org/abs/1707.06347
（3）Fine-Tuning Language Models from Human Preferences (2020) 阐述了 PPO 和奖励学习对于预训练语言模型的概念，包括 KL 正则化以防止策略与自然语言偏离太远https://arxiv.org/abs/1707.06347
Learning to Summarize from Human Feedback (2022) 介绍了流行的 RLHF 三步过程，该过程后来也在 InstructGPT 论文中被使用。https://arxiv.org/abs/2009.01325

4. 强化学习算法：从近端策略优化算法（PPO）到群组相对策略优化算法（GRPO）

如前所述，近端策略优化算法（PPO）是最初用于基于人类反馈的强化学习（RLHF）中的算法。从技术角度来看，它在用于开发推理模型的强化学习流程中运行得相当不错。然而，DeepSeek-R1 在其强化学习流程中使用的是一种名为群组相对策略优化算法（GRPO）的算法，该算法在他们早期的一篇论文中被提出：
《DeepSeekMath：突破开源语言模型中数学推理的极限》（2024 年）https://arxiv.org/abs/2402.03300

DeepSeek 团队将群组相对策略优化算法（GRPO）介绍为：

近端策略优化算法（PPO）的一种变体，它在增强数学推理能力的同时，优化了近端策略优化算法（PPO）的内存使用情况。

所以，这里的关键动机是提高计算效率。

计算效率的提升是通过去掉 “评论家”（价值模型）实现的，也就是去掉那个计算价值函数（即预期未来奖励）的大语言模型。

群组相对策略优化算法（GRPO）没有依赖这个额外的模型来计算估计奖励以计算优势，而是采用了一种更简单的方法：它从策略模型自身采样多个答案，并利用这些答案的相对质量来计算优势。

为了说明近端策略优化算法（PPO）和群组相对策略优化算法（GRPO）之间的区别，我从《DeepSeekMath》这篇论文中借用了一张很不错的图：

5. 强化学习奖励建模：从基于人类反馈的强化学习（RLHF）到基于价值与奖励的强化学习（RLVR）

到目前为止，我们把基于人类反馈的强化学习（RLHF）当作一个流程来看待，并且我们已经介绍了两种常用于此的强化学习算法：近端策略优化算法（PPO）和群组相对策略优化算法（GRPO）。

但是，如果基于人类反馈的强化学习（RLHF）已经是大语言模型校准工具包的核心部分，那么这一切与推理又有什么关系呢？

基于人类反馈的强化学习（RLHF）与推理之间的联系，源于 DeepSeek 团队如何运用一种类似的基于强化学习的方法（采用群组相对策略优化算法（GRPO））来训练他们的 R1 和 R1-Zero 模型的推理能力。

不同之处在于，DeepSeek-R1 团队没有依赖人类偏好并训练一个奖励模型，而是使用了可验证的奖励。这种方法被称为基于可验证奖励的强化学习（RLVR）。

再次强调：与标准的基于人类反馈的强化学习（RLHF）相比，基于可验证奖励的强化学习（RLVR）无需使用奖励模型。

所以，该模型不是从人类标注的示例中学习什么才算是 “好” 答案，而是从确定性工具（如符号验证器或基于规则的工具）中获得直接的二元反馈（正确或错误）。可以把它想象成用于解决数学问题的计算器，或者用于代码生成的编译器。

这样做的一个动机是，在强化学习过程中使用自动正确性检查作为监督信号，以避免受到带有噪声或成本高昂的人类反馈或训练得到的奖励的影响。另一个动机是，通过使用像计算器这样 “成本低” 的工具，我们可以取代成本高昂的奖励模型训练过程以及奖励模型本身。由于奖励模型通常是整个预训练模型（只是带有一个回归头），基于可验证奖励的强化学习（RLVR）效率要高得多。

所以，简而言之，DeepSeek-R1 将基于可验证奖励的强化学习（RLVR）与群组相对策略优化算法（GRPO）结合使用，这在训练过程中去除了两个成本高昂的模型：奖励模型和价值模型（评论家），如下图所示。

在下一部分，我想简要介绍一下 DeepSeek-R1 的训练流程，并讨论 DeepSeek 团队所使用的不同可验证奖励。

6. DeepSeek-R1 推理模型是如何训练的

既然我们已经弄清楚了基于人类反馈的强化学习（RLHF）和基于可验证奖励的强化学习（RLVR）是什么，以及近端策略优化算法（PPO）和群组相对策略优化算法（GRPO），现在让我们在强化学习和推理的背景下，简要回顾一下 DeepSeek-R1 论文中的主要观点。

首先，有三种类型的模型：

使用纯强化学习训练的 DeepSeek-R1-Zero。
使用指令微调（SFT）和强化学习训练的 DeepSeek-R1。
通过指令微调（SFT）且不使用强化学习创建的 DeepSeek-Distill 变体。

我制作了一张 DeepSeek-R1 训练流程图，来说明这些模型之间的关系，如下所示。

DeepSeek-R1-Zero 是使用基于可验证奖励的强化学习（RLVR）结合群组相对策略优化算法（GRPO）进行训练的，结果表明，这种训练方式足以让模型通过生成中间步骤来展现推理能力。这表明跳过监督微调（SFT）阶段是可行的。该模型通过探索来提高其推理能力，而不是从示例中学习。

DeepSeek-R1 是旗舰模型，也是性能最好的模型。与 DeepSeek-R1-Zero 的不同之处在于，他们交替进行指令微调、基于可验证奖励的强化学习（RLVR）和基于人类反馈的强化学习（RLHF）。

DeepSeek-Distill 变体旨在成为小型且更易于部署的模型；它们是通过使用来自 DeepSeek-R1 模型的指令数据，对 Llama 3 和 Qwen 2.5 模型进行指令微调而生成的。这种方法在推理部分没有使用任何强化学习（不过，在创建 Llama 3 和 Qwen 2.5 基础模型时使用了基于人类反馈的强化学习（RLHF））。

关于解释 DeepSeek-R1 训练流程的更多细节，请参阅我之前的文章《理解推理型大语言模型》：https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

这里的主要要点是，DeepSeek 团队在训练 DeepSeek-R1-Zero 时没有使用基于大语言模型的奖励模型。相反，他们在对 DeepSeek-R1-Zero 和 DeepSeek-R1 进行推理训练时使用了基于规则的奖励：

在开发 DeepSeek-R1-Zero 时，我们没有应用结果或过程神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能会受到奖励操纵的影响 [...]
为了训练 DeepSeek-R1-Zero，我们采用了一个基于规则的奖励系统，该系统主要由两种类型的奖励组成：

准确性奖励：准确性奖励模型评估回答是否正确。例如，对于有确定结果的数学问题，要求模型以指定格式（例如，在一个框内）提供最终答案，从而能够基于可靠的规则来验证答案的正确性。同样，对于力扣（LeetCode）上的问题，可以使用编译器根据预定义的测试用例生成反馈。
格式奖励：除了准确性奖励模型之外，我们还采用了一个格式奖励模型，该模型强制要求模型将其思考过程放在 “<think>” 和 “</think>” 标签之间。

7. 从近期关于训练推理模型的强化学习论文中得到的经验教训

我意识到，前面的引言部分（即到目前为止的所有内容）比我预期的要长得多。尽管如此，我认为这个较长的引言对于理解接下来的经验教训或许是必要的，能为其提供背景信息。

上个月，在研读了大量近期关于推理模型的论文后，我在本节中总结了其中最有趣的观点和见解。（像 “[1]” 这样的参考文献指向文章末尾列出的相应论文。）

1. 强化学习能进一步提升蒸馏模型的性能

最初的 DeepSeek-R1 论文清楚地表明，先进行监督微调（SFT）再进行强化学习（RL）的效果优于仅使用强化学习。
基于这一观察，很容易想到额外的强化学习应该能进一步提升蒸馏模型的性能（因为蒸馏模型本质上代表了使用由更大模型生成的推理示例，通过监督微调训练的模型）。
事实上，DeepSeek 团队明确观察到了这一现象：

此外，我们发现对这些蒸馏模型应用强化学习会带来显著的进一步提升。我们认为这值得进一步探索，因此在此仅展示简单的监督微调蒸馏模型的结果。

几个团队独立验证了这些观察结果：
[8] 研究人员使用 15 亿参数的 DeepSeek-R1-Distill-Qwen 模型证明，仅用 7000 个示例和适度的 42 美元计算成本进行强化学习微调，就能显著提升性能。令人印象深刻的是，这个小模型在 AIME24 数学基准测试中超过了 OpenAI 的 o1-preview。
[15] 然而，另一个团队警告说，这些提升在统计学上可能并不总是显著的。这表明，尽管强化学习可以提升较小的蒸馏模型，但基准测试结果有时可能会夸大这种提升。

2. 长错误答案的问题

我之前提到过，基于可验证奖励的强化学习（RLVR）并不严格要求使用群组相对策略优化算法（GRPO）；DeepSeek 的群组相对策略优化算法只是恰好高效且表现良好。
然而，[12] 表明，普通的近端策略优化算法（PPO）搭配基本的二元正确性奖励，足以提升模型的推理能力和回答长度。
更有趣的是，近端策略优化算法（PPO）和群组相对策略优化算法（GRPO）都存在长度偏差。并且有几篇论文探索了解决过长错误答案问题的方法：
[14] 提供了一项分析，说明由于损失计算中的数学偏差，近端策略优化算法（PPO）会在不经意间偏爱更长的回答；群组相对策略优化算法（GRPO）可能也存在同样的问题。

作为对上述观点的后续研究，[7] [10] 特别指出了群组相对策略优化算法（GRPO）中存在的长度和难度级别偏差。改进后的变体 “Dr. GRPO” 通过去除长度和标准差归一化来简化优势计算，从而提供更清晰的训练信号。
[1] 在群组相对策略优化算法（GRPO）中，明确对冗长的错误答案进行惩罚，同时奖励简洁正确的答案。
[3] [6] 在群组相对策略优化算法（GRPO）中没有直接控制回答长度，但发现基于 token 的奖励是有益的，能让模型更好地专注于关键推理步骤。
[5] 在群组相对策略优化算法（GRPO）中，对超过特定长度的回答引入了明确的惩罚，从而在推理过程中实现对长度的精确控制。

3. 强化学习带来的涌现能力

除了 DeepSeek-R1 论文中提到的 “顿悟” 时刻之外，强化学习已被证明可以在模型中诱导出有价值的自我验证和反思性推理能力 [2] [9]。有趣的是，与 “顿悟” 时刻类似，这些能力在训练过程中自然涌现，无需明确的指令。
[1] 表明扩展上下文长度（最长可达 12.8 万个 token）能进一步提升模型的自我反思和自我修正能力。

4. 特定领域之外的泛化能力

到目前为止，大多数研究工作都集中在数学或编码领域的推理任务上。然而，[4] 通过在逻辑谜题上训练模型，展示了成功的泛化能力。并且在逻辑谜题上训练的模型在数学推理任务中也取得了优异的性能。这证明了强化学习能够诱导出独立于特定领域知识的通用推理行为。

5. 向更广泛领域的扩展

作为对上述部分的延续，另一个有趣的见解 [11] 是，推理能力可以自然地扩展到数学、代码和逻辑等结构化领域之外。
模型成功地将推理应用于包括医学、化学、心理学、经济学和教育等领域，利用生成式软评分方法有效地处理自由形式的答案。
推理模型接下来值得关注的发展方向包括：
将现有的推理模型（例如 o1、DeepSeek-R1）与外部工具使用和检索增强生成（RAG）等能力相结合；OpenAI 刚刚发布的 o3 模型在此方面开辟了道路。
说到工具使用和搜索，[9] 表明，赋予推理模型搜索能力会诱导出自我修正和在各种基准测试中实现稳健泛化的行为，尽管训练数据集很小。
基于 DeepSeek-R1 团队在维持基于知识任务的性能方面所经历的过程，我认为为推理模型添加搜索能力几乎是顺理成章的事情。

6. 推理能力仅仅归因于强化学习吗？

DeepSeek-R1（以及 R1-Zero）背后的基本主张是，基于可验证奖励的强化学习（RLVR）明确诱导出了推理能力。然而，最近的研究结果 [10] 表明，由于在大量的思维链数据上进行了预训练，包括 “顿悟” 时刻在内的推理行为可能在基础模型中就已经存在。
我最近对 DeepSeek V3 基础模型和 R1 模型的比较强化了这一观察结果，因为更新后的基础模型也展示出了类似推理的行为。例如，原始 V3 模型和 R1 模型之间的比较清楚地显示了非推理模型和推理模型之间的差异：

然而，当比较更新后的 V3 基础模型和 R1 模型时，情况就不再如此：

此外，[13] 指出，自我反思和自我修正行为在各种领域和不同模型规模的预训练过程中逐步涌现。这使得将推理能力仅仅归因于强化学习方法的情况变得更加复杂。
也许结论是，强化学习确实能将简单的基础模型转变为推理模型。然而，它并不是诱导或提升推理能力的唯一途径。正如 DeepSeek-R1 团队所示，蒸馏也能提升推理能力。并且由于在本文中，蒸馏意味着在思维链数据上进行指令微调，很可能在包含思维链数据的数据集上进行预训练也能诱导出这些能力。（毕竟，正如我在书中通过实际代码所解释的那样，预训练和指令微调都是基于相同的下一个 token 预测任务和损失函数。）

8. 关于训练推理模型的值得关注的研究论文

上个月我研读了大量有关推理的论文，在上一节中，我尝试总结了其中最有意思的要点。不过，对于那些想进一步了解详细出处的人，我在本节中列出了 15 篇相关论文，可供选读。（为简洁起见，以下总结按日期排序。）

请注意，这个列表并不全面（我将数量限定为 15 篇），因为这篇文章已经长得不能再长了！

[1] Scaling Reinforcement Learning (And Context Length) 📄 22 Jan, Kimi k1.5: Scaling Reinforcement Learning with LLMs, https://arxiv.org/abs/2501.12599
[2] Competitive Programming with Large Reasoning Models 📄 3 Feb, Competitive Programming with Large Reasoning Models, https://arxiv.org/abs/2502.06807
[3] Exploring the Limit of Outcome Reward 📄 10 Feb, Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning, https://arxiv.org/abs/2502.06781
[4] LLM Reasoning with Rule-Based Reinforcement (On Logic Data) 📄 20 Feb, Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning, https://arxiv.org/abs/2502.14768
[5] Controlling How Long A Reasoning Model Thinks 📄 6 Mar, L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning, https://arxiv.org/abs/2503.04697
[6] Incentivizing the Search Capability in LLMs 📄 10 Mar, R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning, https://arxiv.org/abs/2503.05592
[7] Open-Source LLM Reinforcement Learning at Scale 📄 18 Mar, DAPO: An Open-Source LLM Reinforcement Learning System at Scale, https://arxiv.org/abs/2503.14476
[8] Reinforcement Learning for Reasoning in Small LLMs 📄 20 Mar, Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't, https://arxiv.org/abs/2503.16219
[9] Learning to Reason with Search 📄 25 Mar, ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning, https://arxiv.org/abs/2503.19470
[10] Understanding R1-Zero-Like Training 📄 26 Mar, Understanding R1-Zero-Like Training: A Critical Perspective, https://arxiv.org/abs/2503.20783
[11] Expanding RL with Verifiable Rewards Across Diverse Domains 📄 31 Mar, Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains, https://arxiv.org/abs/2503.23829
[12] Scaling Up Reinforcement Learning (With a Simple Setup) 📄 31 Mar, Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model, https://arxiv.org/abs/2503.24290
[13] Rethinking Reflection in Pre-Training 📄 5 Apr, Rethinking Reflection in Pre-Training, https://arxiv.org/abs/2504.04022
[14] Concise Reasoning via Reinforcement Learning 📄 7 Apr, Concise Reasoning via Reinforcement Learning, https://arxiv.org/abs/2504.05185
[15] A Sober Look at Progress in Language Model Reasoning 📄 9 Apr, A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, https://arxiv.org/abs/2504.07086