Deepseek-R1：纯强化学习实现接近OpenAI o1水平（论文解读）

最新推荐文章于 2025-02-28 12:11:20 发布

Sherlock Ma

最新推荐文章于 2025-02-28 12:11:20 发布

阅读量7.8k

点赞数 17

分类专栏： CoT/o1模型大语言模型 AIGC 文章标签：深度学习人工智能 AIGC gpt nlp

本文链接：https://blog.csdn.net/sherlockMa/article/details/145300216

版权

AIGC 同时被 3 个专栏收录

33 篇文章

订阅专栏

大语言模型

25 篇文章

订阅专栏

CoT/o1模型

8 篇文章

订阅专栏

1.摘要

近日，Deepseek发布了自家的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。其中DeepSeek-R1-Zero是一种通过大规模强化学习（RL）训练的模型，没有监督微调（SFT）作为初步步骤，其展示了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero显示出了许多强大而有趣的推理行为。然而，它遇到了诸如可读性差和语言混合等挑战。

为了解决这些问题并进一步增强推理性能，作者引入了DeepSeek-R1，它在RL之前结合了多阶段训练和冷启动数据。DeepSeekR1在推理任务上实现了与OpenAI-o1-1217相当的性能。

为了支持研究社区，作者开源了DeepSeek-R1-Zero，DeepSeek-R1和六个基于Qwen和Llama的DeepSeek-R1的蒸馏模型（1.5B，7 B，8B，14 B，32 B，70 B）。

2.简介

最近，post-training已成为大模型训练的一个重要组成部分。它可以提高推理任务的准确性，并适应用户的偏好，同时相对于预训练，它只需要相对最少的计算资源。

在推理能力方面，OpenAI的o 1系列模型是第一个通过增加思维链推理过程的长度来引入推理时间缩放的模型。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而，有效的测试时间缩放的挑战仍然是一个开放的问题。

一些先前的工作已经探索了各种方法，包括基于过程的奖励模型、强化学习，以及诸如蒙特卡罗树搜索和波束搜索。然而，这些方法中没有一种能够达到与OpenAI的o 1系列模型相当的通用推理性能。

在本文中，作者使用纯强化学习（RL）来提高语言模型推理能力。目标是探索在没有任何监督数据的情况下，通过纯RL过程的自我进化促使LLM发展推理能力的潜力。具体地说，作者使用DeepSeek-V3-Base作为基础模型，并采用GRPO作为RL框架，以提高模型在推理中的性能。在训练过程中，DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。经过数千个RL步骤，DeepSeek-R1-Zero在推理基准测试中表现出超强的性能。例如，AIME 2024上的pass@1得分从15.6%提高到71.0%，在多数投票的情况下，得分进一步提高到86.7%，与OpenAI-o 1 -0912的性能相当。

然而，DeepSeek-R1-Zero遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，作者引入了DeepSeek-R1，它包含了少量的冷启动数据和多阶段训练管道。具体来说，开始是收集数千个冷启动数据来微调DeepSeek-V3-Base模型。在此之后执行面向推理的RL。在RL过程中接近收敛时，通过RL权重上的拒绝采样创建新的SFT数据，结合DeepSeek-V3在写作，事实QA和自我认知等领域的监督数据，然后重新训练DeepSeek-V3-Base模型。在使用新数据进行微调之后，检查点会经历一个额外的RL过程，考虑到所有场景的提示。在这些步骤之后，作者获得了一个称为DeepSeek-R1的权重，它的性能与OpenAI-o 1 -1217相当。

贡献：

Post-training：

作者直接将强化学习（RL）应用于基础模型，而不依赖监督微调（SFT）作为初步步骤。这种方法允许模型探索解决复杂问题的思想链（CoT），从而开发了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反射和生成长CoT等功能，标志着研究界的一个重要里程碑。值得注意的是，这是第一个验证LLM的推理能力可以纯粹通过RL来激励，而不需要SFT的开放式研究。这一突破为该领域的未来发展铺平了道路。
作者介绍了开发DeepSeek-R1的管道。该管道包含两个RL阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个SFT阶段，作为模型推理和非推理能力的种子。

蒸馏：

较小的模型也可以很强大，作者证明了较大模型的推理模式可以被提取到较小的模型中，与通过RL在小模型上发现的推理模式相比，性能更好。开源的DeepSeek-R1及其API将使研究社区在未来提取更好的更小的模型。
使用DeepSeek-R1生成的推理数据，作者微调了几个在研究界广泛使用的密集模型。评估结果表明，蒸馏较小的密集模型在基准测试中表现非常好。DeepSeekR 1-Distill-Qwen-7 B在AIME 2024上获得了55.5%的成绩，超过了QwQ-32 B-Preview。此外，DeepSeek-R1-Distill-Qwen-32 B在AIME 2024上的得分为72.6%，在MATH-500上为94.3%，在LiveCodeBench上为57.2%。这些结果明显优于以前的开源模型，并与o 1-mini相当。作者开源了基于Qwen2.5和Llama 3系列的1.5B、7 B、8B、14 B、32 B和70 B权重。

3.方法

之前的工作严重依赖大量监督数据来增强模型性能。在本研究中，作者证明了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也可以显著提高推理能力。此外，通过包含少量冷启动数据，可以进一步增强性能。

在下面的部分中，我们将介绍：（1）DeepSeek-R1-Zero，它直接将RL应用于基础模型，而不需要任何SFT数据，以及（2）DeepSeek-R1，它从检查点开始应用RL，并通过数千个长的思想链（CoT）示例进行微调。3)将推理能力从DeepSeek-R1中提炼到小的密集模型。

DeepSeek-R1-Zero：基于基础模型的强化学习

强化学习在推理任务中已经证明了显著的有效性，然而，这些工作在很大程度上依赖于监督数据，而这些数据的收集是耗时的。在这一节中，我们将探讨LLM在没有任何监督数据的情况下发展推理能力的潜力，重点关注它们通过纯强化学习过程的自我进化。

强化学习

为了节省RL的训练成本，我们采用组相对策略优化（GRPO），其放弃了通常与策略模型大小相同的批评者模型，而是根据组分数来估计基线。具体而言，对于每个问题𝑞，GRPO从旧策略模型 $\pi_{\theta _{old}}$ 中抽取一组输出 $\left \{ o_1,o_2,...,o_G \right \}$ ，然后通过最大化以下目标来优化策略模型 $\pi_{\theta}$ ：

其中， $\varepsilon$ 和 $\beta$ 是超参数， $A_i$ 是advantage，其使用一组奖励{R1，R2，...，}对应于每个组内的输出： $A_i=\frac{r_i-mean(\left \{ r_1,r_2,...,r_G \right \})}{std(\left \{ r_1,r_2,...,r_G \right \})}$

奖励模型

奖励是训练信号的来源，决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero，作者采用了基于规则的奖励系统，主要包括两种类型的奖励：

准确性奖励：准确性奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题的情况下，需要模型以指定格式（例如，在一个盒子内），使得能够进行可靠的基于规则的正确性验证。类似地，对于LeetCode问题，可以使用编译器基于预定义的测试用例生成反馈。
奖励形式：除了准确性奖励模型之外，还采用了格式奖励模型，该模型强制模型将其思维过程置于“<think>”和“</think>”标签之间。

作者在开发DeepSeek-R1-Zero时没有应用结果或过程神经奖励模型，因为作者发现神经奖励模型在大规模强化学习过程中可能会遭受奖励黑客攻击，并且重新训练奖励模型需要额外的训练资源，并且会使整个训练管道变得复杂。

训练模板

为了训练DeepSeek-R1-Zero，作者设计了一个简单的模板，引导基础模型遵守作者指定的指令。如下表所示，该模板要求DeepSeek-R1-Zero首先生成推理过程，然后生成最终答案。作者有意地将约束限制在这种结构形式上，避免任何内容特定的偏见--例如强制进行反思性推理或促进特定的问题解决策略--以确保能够在强化学习（RL）过程中准确地观察到模型的自然进展。

DeepSeek-R1-Zero的性能、自演化过程及Aha时刻

DeepSeek-R1-Zero的性能描述了在强化学习（RL）训练过程中，DeepSeekR 1-Zero在AIME 2024基准测试中的性能轨迹。如图所示，DeepSeek-R1-Zero显示了随着RL训练的推进，性能的稳定和一致的增强。值得注意的是，AIME 2024上的平均pass@1得分有了显著的提高，从最初的15.6%跃升到令人印象深刻的71.0%，达到了与OpenAI-o 1 -0912相当的性能水平。这一显著的改进突出了RL算法在优化模型性能方面的有效性。

表2提供了DeepSeek-R1-Zero和OpenAI的o 1 -0912模型在各种推理相关基准测试中的比较分析。研究结果表明，RL使DeepSeek-R1-Zero能够在不需要任何监督微调数据的情况下获得强大的推理能力。这是一个值得注意的成就，因为它强调了模型仅通过RL就能有效地学习和概括。此外，DeepSeekR 1-Zero的性能可通过应用多数表决进一步增强。例如，当在AIME基准测试中采用多数投票时，DeepSeek-R1-Zero的性能从71.0%提升到86.7%，从而超过了OpenAI-o 1 -0912的性能。DeepSeek-R1-Zero在有和没有多数投票的情况下都能达到如此有竞争力的性能，这突出了其强大的基础能力和在推理任务中进一步进步的潜力。

DeepSeek-R1-Zero的自我进化过程是一个迷人的演示，展示了RL如何驱动模型自主提高其推理能力。通过直接从基础模型启动RL，我们可以密切监控模型的进展，而不受监督微调阶段的影响。这种方法提供了一个清晰的视图，模型如何随着时间的推移，特别是在其处理复杂的推理任务的能力。

如下图所示，DeepSeek-R1-Zero的思考时间在整个训练过程中表现出一致的改善。这种改进不是外部调整的结果，而是模型内部的内在发展。DeepSeek-R1-Zero通过利用扩展的测试时间计算，自然获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理令牌，允许模型更深入地探索和改进其思维过程。

这种自我进化最显著的方面之一是随着测试时间计算的增加而出现复杂的行为。诸如反思这样的行为模型会重新访问和评估其先前的步骤以及探索解决问题的替代方法。这些行为并未以编程的方式明确体现，而是作为模型与强化学习环境交互的结果出现。这种自发的开发大大增强了DeepSeek-R1-Zero的推理能力，使其能够以更高的效率和准确性处理更具挑战性的任务。

DeepSeek-R1-Zero的Aha时刻在DeepSeek-R1-Zero的训练过程中观察到的一个特别有趣的现象是“啊哈时刻”的发生。如表3所示，这一时刻发生在模型的中间版本中。在此阶段，DeepSeek-R1-Zero通过重新评估其初始方法来学习分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力，也是强化学习如何导致意想不到的复杂结果的一个迷人的例子。

这一刻不仅是模型的“啊哈时刻”，也是观察其行为的研究人员的“啊哈时刻”。它强调了强化学习的力量和美丽：而不是明确地教模型如何解决问题，只是为它提供正确的激励，它会自主开发高级解决问题的策略。“啊哈时刻”有力地提醒人们，强化学习有潜力在人工系统中解锁新的智能水平，为未来更具自主性和自适应性的模型铺平道路。

在论文中，“aha moment”（啊哈时刻）是一个用来描述模型在训练过程中突然出现的、显著的性能提升或行为改变的术语。它通常指的是模型在某个时刻突然“领悟”到一种更有效的解决问题的方法，从而导致性能的显著提升或行为模式的改变。

具体来说，论文中提到的 DeepSeek-R1-Zero 在训练过程中经历了一个“aha moment”。在这个时刻，模型学会了重新评估问题的初始方法，并分配更多的时间来思考问题的解决方案。这种行为的出现并不是人为设计的，而是模型在强化学习过程中自然涌现出来的。它展示了强化学习的强大能力，通过适当的激励，模型可以自主地发展出复杂的策略，而无需显式地被教导如何解决问题。

这种“aha moment”不仅对模型来说是一个重要的突破，也给研究人员带来了惊喜，因为它展示了模型在学习过程中可能出现的意外和强大的能力。

DeepSeek-R1-Zero的缺点 虽然DeepSeek-R1-Zero表现出强大的推理能力，并自主开发出意想不到的强大推理行为，但它面临着几个问题。例如，DeepSeek-R1-Zero面临着可读性差和语言混合等挑战。为了使推理过程更具可读性并与开放社区共享，我们探索了DeepSeek-R1，这是一种利用RL与人类友好的冷启动数据的方法。

DeepSeek-R1：冷启动强化学习

受DeepSeek-R1-Zero令人鼓舞的结果的启发，两个自然的问题出现了：1）通过将少量高质量数据作为冷启动来进一步提高推理性能或加速收敛吗？2)如何训练一个用户友好的模型，不仅能产生清晰连贯的思想链（CoT），而且还能展示强大的通用能力？为了解决这些问题，作者设计了一个管道来训练DeepSeek-R1。管道由四个阶段组成，概述如下。

冷启动

与DeepSeek-R1-Zero不同的是，为了防止从基础模型开始RL训练的早期不稳定冷启动阶段，对于DeepSeek-R1，作者构建并收集了少量的长CoT数据来微调模型作为初始RL行为。为了收集这些数据，作者探索了几种方法：以长CoT为例，使用少量提示，直接提示模型生成具有反射和验证的详细答案，以可读格式收集DeepSeek-R1 Zero输出，并通过人工注释器进行后处理来细化结果。

在这项工作中，作者收集了数千个冷启动数据，以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比，冷启动数据的优势包括：

可读性：DeepSeek-R1-Zero的一个关键限制是其内容通常不适合阅读。响应可能会混合多种语言或缺乏标记格式，以突出显示用户的答案。相比之下，在为DeepSeek-R1创建冷启动数据时，作者设计了一个可读的模式，在每个响应的末尾都包含一个摘要，并过滤掉对读者不友好的响应。在这里，我们将输出格式定义为|特殊令牌|<reasoning_process>|特殊令牌|<summary>,，其中推理过程是查询的CoT，摘要用于总结推理结果。
潜力：通过仔细设计具有人类先验知识的冷启动数据的模式，作者观察到DeepSeek-R1-Zero的性能更好。可以认为迭代训练是推理模型的一种更好的方法。

面向推理的强化学习

在根据冷启动数据对DeepSeek-V3-Base进行微调后，作者应用了与DeepSeek-R1-Zero相同的大规模强化学习训练过程。此阶段的重点是增强模型的推理能力，特别是在推理密集型任务中，如编码，数学，科学和逻辑推理，这些任务涉及定义明确的问题和明确的解决方案。

在训练过程中，作者观察到CoT经常表现出语言混合，特别是当RL提示涉及多种语言时。为了减轻语言混合的问题，我们在RL训练期间引入了语言一致性奖励，其计算为CoT中目标语言单词的比例。

尽管消融实验表明，这种对齐会导致模型性能略有下降，但这种奖励与人类偏好一致，使其更具可读性。最后，作者将推理任务的准确性和语言一致性的奖励结合起来，直接将它们相加，形成最终的奖励。然后，作者对微调后的模型应用强化学习（RL）训练，直到它在推理任务上实现收敛。

拒绝采样和监督微调

当面向推理的强化学习收敛时，作者利用得到的权重为下一轮收集SFT（监督微调）数据。与主要关注推理的初始冷启动数据不同，这个阶段合并了来自其他领域的数据，以增强模型在编写，角色扮演和其他通用任务方面的能力。具体来说，作者生成数据并对模型进行微调，如下所述。

推理数据 作者通过从上述RL训练的权重执行拒绝采样来管理推理提示并生成推理轨迹。在上一阶段，作者只纳入了可以使用基于规则的奖励进行评估的数据。然而，在这一阶段，作者通过合并额外的数据来扩展数据集，其中一些数据使用了生成性奖励模型，将真实数据和模型预测输入DeepSeek-V3进行判断。

在论文《DeepSeek-R1》中，拒绝采样被用于生成高质量的监督微调（Supervised Fine-Tuning, SFT）数据。具体步骤如下：

从强化学习模型中采样：从经过强化学习训练的模型（如 DeepSeek-R1）中生成大量样本（例如，对某个问题生成多个回答）。

定义拒绝规则：根据某些标准（如答案的正确性、语言质量、是否符合人类偏好等）设计拒绝规则。例如，只保留正确答案或符合特定格式的样本。

生成高质量数据：通过拒绝采样，从大量生成的样本中筛选出高质量的样本，用于后续的监督微调。

非推理数据 对于非推理数据，例如写作，事实QA，自我认知和翻译，作者采用DeepSeek-V3管道并重用DeepSeek-V3的SFT数据集的部分。对于某些非推理任务，调用DeepSeek-V3在通过提示回答问题之前生成潜在的思维链。但是，对于更简单的查询，例如“hello”，我们不提供CoT作为响应。最后，作者总共收集了大约20万个与推理无关的训练样本。

作者使用上述约80万个样本的精选数据集对DeepSeek-V3-Base进行了两个epoch的微调。

适用于所有场景的强化学习

为了进一步使模型与人类偏好保持一致，作者实施了一个二级强化学习阶段，旨在提高模型的有用性和无害性，同时改进其推理能力。

具体来说，使用奖励信号和各种提示分布的组合来训练模型。

对于推理数据，作者坚持DeepSeek-R1-Zero中概述的方法，该方法利用基于规则的奖励来指导数学，代码和逻辑推理领域的学习过程。
对于一般数据，作者采用奖励模型来捕捉复杂和细微差别场景中的人类偏好。作者建立在DeepSeek-V3管道的基础上，并采用了类似的偏好对和训练提示的分布。

为了提供帮助，作者专门关注最终摘要，确保评估强调响应对用户的实用性和相关性，同时最大限度地减少对潜在推理过程的干扰。对于无害性，作者评估模型的整个响应，包括推理过程和摘要，以识别和减轻生成过程中可能出现的任何潜在风险，偏见或有害内容。最终，奖励信号和不同数据分布的整合使我们能够训练出一个在推理方面表现出色的模型，同时优先考虑有益和无害。

蒸馏：赋予小型模型推理能力

为了让更高效的小型模型具备DeekSeek-R1这样的推理能力，作者直接使用DeepSeek-R1管理的80万个样本对Qwen和Llama等开源模型进行了微调。作者的研究结果表明，这种简单的蒸馏方法显着提高了较小的模型的推理能力。作者在这里使用的基本模型是Qwen2.5-Math-1.5B、Qwen2.5-Math-7 B、Qwen2.514B、Qwen2.5- 32 B、Llama-3.1-8B和Llama-3.3- 70 B-Instruct。

对于蒸馏模型，作者只应用SFT，不包括RL阶段，即使合并RL可以大大提高模型性能。作者的主要目标是证明蒸馏技术的有效性，将RL阶段的探索留给更广泛的研究社区。

4.实验

基准：评估的模型包括MMLU、MMLU-Redux、MMLU-Pro、C-Eval和CMMLU、IFEval、Frame、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-BENCED、aider、LiveCodeBitch(2024-08-2025-01)，Codeforce，中国全国高中数学奥林匹克竞赛(CNMO 2024)，以及美国数学邀请赛2024(AIME 2024)(MAA，2024)。除了标准基准外，作者还使用LLMS作为判断标准来评估我们的开放式生成任务模型。具体地说，作者坚持AlpacaEval 2.0和Arena-Hard的原始配置，它们利用GPT-4-Turbo-1106作为两两比较的评判。对于蒸馏模型，作者报告了在AIME 2024、MAX-500、GPQA钻石、Codeforce和LiveCodeBuch上的代表性结果。

基线作者针对多个强大的基线进行全面评估，包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4 o-0513、OpenAI-o 1-mini和OpenAI-o 1 -1217。由于在中国大陆访问OpenAI-o 1 -1217 API具有挑战性，作者根据官方报告报告其性能。对于提取模型，作者还比较了开源模型QwQ-32 B-Preview。

生成设置 对于所有的模型，最大生成长度设置为32768个tokens。对于需要采样的基准测试，作者使用0.6的温度，0.95的top-p值，每个查询生成64个响应来估计pass@1。

DeepSeek-R1评估

对于面向教育的知识基准测试，如MMLU，MMLU-Pro和GPQA Diamond，DeepSeek-R1与DeepSeek-V3相比表现出上级性能。这一改进主要归功于STEM相关问题的准确性提高，其中通过大规模强化学习（RL）实现了显着收益。

此外，DeepSeek-R1在FRAMES（一项长期依赖于上下文的QA任务）方面表现出色，展示了其强大的文档分析能力。这突出了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。

在事实基准SimpleQA上，DeepSeek-R1的表现优于DeepSeek-V3，证明了它在处理基于事实的查询方面的能力。OpenAI-o 1在此基准上超过GPT-4 o时也观察到类似的趋势。

然而，DeepSeek-R1在中文SimpleQA基准测试中的表现比DeepSeek-V3差，主要是因为它在安全RL后倾向于拒绝回答某些查询。在没有安全RL的情况下，DeepSeek-R1可以达到70%以上的准确率。

DeepSeek-R1还在IF-Eval上提供了令人印象深刻的结果，IF-Eval是一个旨在评估模型遵循格式指令的能力的基准。这些改进可以与在监督微调（SFT）和RL训练的最后阶段包含预防跟踪数据有关。此外，在AlpacaEval2.0和ArenaHard上观察到了出色的表现，表明DeepSeek-R1在编写任务和开放域问题回答方面的优势。其显著优于DeepSeek-V3的性能强调了大规模RL的泛化优势，这不仅提高了推理能力，还提高了不同领域的性能。此外，DeepSeek-R1生成的摘要长度很简洁，ArenaHard上的平均长度为689个字符，AlpacaEval 2.0上的平均长度为2，218个字符。这表明DeepSeek-R1避免了在基于GPT的评估过程中引入长度偏差，进一步巩固了其在多个任务中的鲁棒性。

在数学任务上，DeepSeek-R1的性能与OpenAI-o1 -1217相当，远远超过其他型号。在编码、算法任务（例如LiveCodeBench和Codeforces）中也观察到类似的趋势，其中以推理为中心的模型在这些基准测试中占据主导地位。在面向工程的编码任务上，OpenAI-o 1 -1217在Aider上的性能优于DeepSeek-R1，但在SWE Verified上达到了相当的性能。我们相信DeepSeek-R1的工程性能将在下一个版本中得到改善，因为目前相关的RL训练数据量仍然非常有限。

蒸馏模型评估

如表5所示，简单地蒸馏DeepSeek-R1的输出可以实现高效的DeepSeekR1-7B（即，DeepSeek-R1-Distill-Qwen-7 B），其全面优于GPT-4 o-0513等非推理模型。DeepSeek-R1- 14B在所有评估指标上都超过了QwQ-32 BPreview，而DeepSeek-R1- 32 B和DeepSeek-R1- 70B在大多数基准测试上都明显超过了o1-mini。这些结果证明了蒸馏的强大潜力。

此外，作者发现将RL应用于这些提取模型会产生显着的进一步收益。

5.讨论

蒸馏与强化学习

可以看到，通过蒸馏DeepSeek-R1，小模型可以获得令人印象深刻的结果。然而，仍然有一个问题：该模型是否可以通过本文中讨论的大规模RL训练来实现可比的性能？

为了回答这个问题，作者使用数学，代码和STEM数据在Qwen-32 B-Base上进行了大规模的RL训练，训练了超过10 K步，最终得到了DeepSeek-R1-Zero-Qwen-32 B。图6所示的实验结果表明，32 B基础模型在大规模RL训练后，实现了与QwQ-32 B-Preview相当的性能。然而，从DeepSeek-R1中提取的DeepSeek-R1 Distill-Qwen-32 B在所有基准测试中的表现都明显优于DeepSeek-R1-Zero-Qwen-32 B。因此，我们可以得出两个结论：第一，将更强大的模型提取到更小的模型中会产生出色的结果，而本文中提到的依赖于大规模RL的较小模型需要巨大的计算能力，甚至可能无法实现蒸馏的性能。其次，虽然蒸馏策略既经济又有效，但超越智能边界可能仍然需要更强大的基础模型和更大规模的强化学习。

不成功的尝试

在开发DeepSeek-R1的早期阶段，作者也遇到了沿着的失败和挫折。作者在这里分享失败的经历是为了提供洞察力，但这并不意味着这些方法不能开发出有效的推理模型。

过程奖励模型（PRM）PRM是一种合理的方法来引导模型朝着解决推理任务的更好的途径发展。然而，在实践中，PRM有三个主要的限制，可能会阻碍其最终的成功。首先，在一般推理中明确定义一个细粒度的步骤是一个挑战。其次，确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型的自动注释可能不会产生令人满意的结果，而手动注释不利于按比例放大。第三，一旦引入了基于模型的PRM，就不可避免地会导致奖励黑客行为，而重新培训奖励模型需要额外的培训资源，这使整个培训流程变得复杂。

总之，虽然PRM展示了对由模型生成的前N个响应进行重新排序或辅助引导搜索的良好能力，但与实验中大规模强化学习过程中引入的额外计算开销相比，其优势有限。

蒙特卡洛树搜索（MCTS）受AlphaGo和AlphaZero启发，作者探索使用蒙特卡罗树搜索（MCTS）来增强测试时计算可扩展性。这种方法涉及将答案分解为更小的部分，以允许模型系统地探索解决方案空间。为了便于实现这一点，作者提示模型生成多个标记，这些标记对应于搜索所需的特定推理步骤。对于训练，作者首先使用收集的提示，通过MCTS在预先训练的价值模型的指导下找到答案。随后，作者使用所得到的问答对来训练参与者模型和价值模型，从而迭代地改进过程。

然而，这种方法在扩大训练时遇到了一些挑战。首先，与国际象棋不同，国际象棋中的搜索空间相对定义良好，令牌生成呈现出指数级更大的搜索空间。为了解决这个问题，作者为每个节点设置了最大扩展限制，但这可能会导致模型陷入局部最优。其次，价值模型直接影响生成的质量，因为它指导搜索过程的每一步。训练细粒度的价值模型本质上是困难的，这使得模型迭代改进具有挑战性。虽然AlphaGo的核心成功依赖于训练一个价值模型来逐步提高其性能，但由于令牌生成的复杂性，这一原则很难在我们的设置中复制。

总之，虽然MCTS在与预训练的值模型配对时可以提高推理过程中的性能，但通过自搜索迭代提高模型性能仍然是一个重大挑战。

6.总结

在这项工作中，作者分享了通过强化学习（RL）增强模型推理能力的旅程。DeepSeek-R1-Zero代表了一种不依赖冷启动数据的纯RL方法，在各种任务中实现了强大的性能。DeepSeek-R1更强大，利用冷启动数据以及迭代RL微调。最终，DeepSeek-R1在一系列任务上实现了与OpenAI-o 1 -1217相当的性能。作者进一步探讨了小的密集模型的推理能力的蒸馏。作者使用DeepSeek-R1作为教师模型来生成80万数据，并微调了几个小的密集模型。结果是令人鼓舞的：DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中的表现优于GPT-4 o和Claude-3.5-Sonnet，在AIME上的表现为28.9%，在MATH上的表现为83.9%。其他密集模型也取得了令人印象深刻的结果，显著优于其他基于相同底层权重的模型。

未来，作者计划在以下几个方面对DeepSeek-R1进行研究。

一般能力：目前，DeepSeek-R1在函数调用、多轮次、复杂角色扮演、json输出等任务上的能力还不如DeepSeekV 3。展望未来，我们计划探索如何利用长期CoT来增强这些领域的任务。
语言混用：DeepSeek-R1目前针对中文和英文进行了优化，这可能会导致在处理其他语言的查询时出现语言混合问题。例如，DeepSeek-R1可能使用英语进行推理和响应，即使查询是英语或中文以外的语言。我们的目标是在未来的更新中解决这一限制。
调试工程：在评估DeepSeek-R1时，我们观察到它对提示很敏感。少炮提示始终会降低其性能。因此，我们建议用户直接描述问题，并使用零激发设置指定输出格式，以获得最佳结果。
软件工程任务：由于评估时间长，影响了强化学习过程的效率，大规模强化学习在软件工程任务中尚未得到广泛应用。因此，DeepSeek-R1在软件工程基准测试中并没有表现出比DeepSeek-V3有很大的改进。未来的版本将通过在软件工程数据上实现拒绝采样或在RL过程中纳入异步评估来解决这个问题，以提高效率。

如果你觉得这些内容对你有帮助，或者让你眼前一亮，不妨点个赞、关注一下，或者收藏起来慢慢看！你的支持是我最大的动力，也让我知道这些内容对你有价值。感谢你的陪伴，我会继续努力带来更多有趣、有用的东西！🎉📚🚀