DeepSeek-R1：通过强化学习激励LLM的推理能力

本文链接：https://blog.csdn.net/m0_63444889/article/details/145994656

摘要

我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，在没有监督微调（SFT）作为初始步骤的情况下，该模型表现出了出色的推理能力。通过RL，DeepSeek-R1-Zero自然会出现许多强大而有趣的推理行为。然而，它遇到了诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，我们引入了DeepSeek-R1，它在RL之前结合了多阶段训练和冷启动数据。DeepSeekR 1在推理任务上的性能与OpenAI-o 1 -1217相当。为了支持研究社区，我们开放了DeepSeek-R1-Zero、DeepSeek-R1和基于Qwen和Llama从DeepSeek-R1中提取的六个密集模型（1.5B、7 B、8B、14 B、32 B、70 B）的源代码。

图1| DeepSeek-R1的基准性能

一、简介

近年来，大型语言模型（LLM）一直在经历快速的迭代和演变（Anthropic，2024; Google，2024; OpenAI，2024 a），逐渐缩小了与人工通用智能（AGI）的差距。

最近，后训练已成为整个训练流水线的一个重要组成部分。它可以提高推理任务的准确性，与社会价值观保持一致，并适应用户的偏好，同时相对于预训练，它只需要相对最少的计算资源。在推理能力方面，OpenAI的o 1（OpenAI，2024 b）系列模型是第一个通过增加思维链推理过程的长度来引入推理时间缩放的模型。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而，有效的测试时间缩放的挑战仍然是一个开放的问题，为研究社区。一些先前的工作已经探索了各种方法，包括基于过程的奖励模型（Lightman等人，2023年; Uesato等人，2022; Wang等人，2023）、强化学习（Kumar等人，2024），以及诸如蒙特卡罗树搜索和波束搜索（Feng等人，2024年; Trinh等人，2024年; Xin等人，2024年）的报告。然而，这些方法中没有一种能够达到与OpenAI的o 1系列模型相媲美的一般推理性能

在本文中，我们将使用纯强化学习（RL）来提高语言模型推理能力。我们的目标是探索在没有任何监督数据的情况下，LLM发展推理能力的潜力，重点是它们通过纯RL过程的自我进化。具体地说，我们使用DeepSeek-V3-Base作为基础模型，并采用GRPO（Shao等人，2024）作为RL框架来提高模型在推理中的性能。在训练过程中，DeepSeek-R1-Zero自然而然地涌现出了许多强大而有趣的推理行为。经过上千个RL步骤，DeepSeek-R1-Zero在推理基准测试中表现出了卓越的性能。例如，AIME 2024上的pass@1得分从15.6%提高到71.0%，在多数投票的情况下，得分进一步提高到86.7%，与OpenAI-o 1 -0912的性能相当。

但是，DeepSeek-R1-Zero遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，我们引入了DeepSeek-R1，它结合了少量的冷启动数据和多级训练流水线。具体来说，我们开始是收集数千个冷启动数据来微调DeepSeek-V3-Base模型。在此之后，我们执行面向推理的RL，如DeepSeek-R1 Zero。在RL过程接近收敛时，通过RL检查点的拒绝采样，结合DeepSeek-V3在写作、事实问答、自我认知等领域的监督数据，创建新的SFT数据，然后重新训练DeepSeek-V3-Base模型。在使用新数据进行微调之后，检查点将经历一个附加的RL过程，其中会考虑所有场景的提示。在这些步骤之后，我们获得了一个称为DeepSeek-R1的检查点，它的性能与OpenAI-o 1 -1217相当。

我们进一步探索了从DeepSeek-R1到更小密度模型蒸馏。使用Qwen2.532B（Qwen，2024 b）作为基础模型时，从DeepSeek-R1直接提取的结果优于对其应用RL。这表明，由较大基础模型发现的推理模式对于提高推理能力至关重要。我们公开了经过提炼的Qwen和Llama（Dubey等人，2024）系列。值得注意的是，我们的14 B模型的性能大大超过了最先进的开源QwQ-32 B-Preview（Qwen，2024 a），32 B和70 B模型的性能也创下了密集模型推理基准测试的新纪录。

1.1 贡献

后训练：基于基础模型的大规模强化学习

我们直接将RL应用于基础模型，而不依赖监督微调（SFT）作为初步步骤。这种方法允许模型探索解决复杂问题的思想链（CoT），从而开发了DeepSeek-R1-Zero。DeepSeekR 1-Zero展示了自我验证、反射和生成长CoT等功能，标志着研究界的一个重要里程碑。值得注意的是，这是第一个验证LLM的推理能力可以纯粹通过RL来激励，而不需要SFT的开放式研究。这一突破为该领域的未来发展铺平了道路
我们介绍了我们开发DeepSeek-R1的流水线。该流水线包括两个RL阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个SFT阶段，用作模型的推理和非推理能力的种子。我们相信，该管道将通过创建更好的模型使行业受益。

蒸馏：更小的模型也可以是强大的

我们证明了较大模型的推理模式可以被提取到较小的模型中，从而比通过RL在小模型上发现的推理模式具有更好的性能。开源的DeepSeek-R1及其API将使研究社区在未来提取更好的更小的模型。
使用DeepSeek-R1生成的推理数据，我们微调了几个在研究界广泛使用的密集模型。评估结果表明，蒸馏较小的密集模型在基准测试中表现非常好。DeepSeekR 1-Distill-Qwen-7 B在AIME 2024上获得了55.5%的成绩，超过了QwQ-32 B-Preview。此外，DeepSeek-R1-Distill-Qwen-32 B在AIME 2024上的得分为72.6%，在MATH-500上为94.3%，在LiveCodeBench上为57.2%。这些结果明显优于以前的开源模型，并与o 1-mini相当。我们将基于Qwen2.5和Llama 3系列的1.5B、7 B、8B、14 B、32 B和70 B检查点开源给社区

1.2评价结果汇总

推理任务：（1）DeepSeek-R1在AIME 2024上获得79.8%Pass@1的分数，略高于OpenAI-o 1 -1217。在MATH-500上，它获得了令人印象深刻的97.3%的分数，与OpenAI-o 1 -1217相当，并明显优于其他模型。(2)在编码相关的任务中，DeepSeek-R1在代码竞赛任务中表现出专家水平，因为它在Codeforces上获得了2，029个Elo评级，超过了96.3%的人类参赛者。对于与工程相关的任务，DeepSeek-R1的性能略好于DeepSeek-V3，这可以帮助开发人员完成真实的任务。
知识：在MMLU、MMLU-Pro和GPQA Diamond等基准测试中，DeepSeekR 1取得了出色的成绩，大幅优于DeepSeek-V3，MMLU评分为90.8%，MMLU-Pro评分为84.0%，GPQA Diamond评分为71.5%。虽然在这些基准测试中，它的性能略低于OpenAI-o 1 -1217，但DeepSeek-R1超过了其他闭源模型，显示了它在教育任务中的竞争优势。在事实基准SimpleQA上，DeepSeek-R1的性能优于DeepSeek-V3，表明其在处理基于事实的查询方面的能力。在OpenAI-o 1超过4 o的情况下，也观察到类似的趋势。
其他：DeepSeek-R1还擅长于广泛的任务，包括创意写作、一般性问题回答、编辑、总结等。在AlpacaEval 2.0和ArenaHard上的成功率分别达到了87.6%和92.3%，显示了其强大的智能处理非考试查询的能力。此外，DeepSeek-R1在需要长上下文理解的任务上表现出了出色的性能，在长上下文基准测试中的性能大大超过了DeepSeek-V3。

二、方法

2.1.概述

先前的工作严重依赖于大量的监督数据来增强模型性能。在本研究中，我们证明了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也可以显著提高推理能力。此外，通过包含少量冷启动数据，可以进一步提高性能。在以下章节中，我们将介绍：（1）DeepSeek-R1-Zero，它将RL直接应用于基础模型，而无需任何SFT数据;以及（2）DeepSeek-R1，它从检查点开始应用RL，该检查点通过数千个长的思路链（CoT）示例进行了微调。3)将DeepSeek-R1的推理能力提取到小型密集模型

2.2.DeepSeek-R1-Zero：基于基础模型的强化学习

强化学习在推理任务中已经证明了显著的有效性，正如我们先前的工作所证明的那样（Shao等人，2024; Wang等人，2023年）的报告。然而，这些工作在很大程度上依赖于监督数据，而这些数据的收集是耗时的。在这一节中，我们将探讨LLM在没有任何监督数据的情况下发展推理能力的潜力，重点关注它们通过纯粹的强化学习过程的自我进化。我们首先简要概述了RL算法，然后介绍了一些令人兴奋的结果，希望这能为社区提供有价值的见解。

2.2.1.强化学习算法

组相对策略优化 为了节省RL的训练成本，我们采用组相对策略优化（GRPO）（Shao et al.，2024），其放弃了通常与策略模型大小相同的批评者模型，而是根据组分数来估计基线。具体地说，对于每个问题，GRPO从旧策略中抽样一组输出 $\left \{ o_1, o_2, \cdots,o_G, \right \}$ ，然后通过最大化以下目标来优化策略模型：

其中， $\varepsilon$ 和 $\beta$ 是超参数， $A_i$ 是优势，使用一组奖励 $\left \{ r_1, r_2, \cdots,r_G, \right \}$ 对应于每个组内的输出：

用户和助手之间的对话。用户提出一个问题，助手会解决它，助手首先会在脑海中思考推理过程，然后为用户提供答案。推理过程和答案分别包含在和标签内，即，<answer></answer><think></think><think>推理过程在</think><answer>这里回答这里</answer>。用户：提示。助手道：

表1| DeepSeek-R1-Zero的模板。在训练过程中，提示将被具体的推理问题所取代。

2.2.2.奖励模型

奖励是训练信号的来源，决定了RL的优化方向。为了训练DeepSeek-R1-Zero，我们采用了基于规则的奖励系统，主要包括两类奖励：

准确性奖励：准确性奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题的情况下，需要模型以指定格式（例如，在一个盒子内），使得能够进行可靠的基于规则的正确性验证。类似地，对于LeetCode问题，可以使用编译器基于预定义的测试用例生成反馈。
格式奖励：除了准确性奖励模型之外，我们还采用了格式奖励模型，该模型强制模型将其思维过程置于“<think>”和“</think>”标签之间。

在DeepSeek-R1-Zero的开发中，我们没有使用结果或过程神经奖励模型，因为我们发现，在大规模强化学习过程中，神经奖励模型可能遭受奖赏黑客攻击，而重新训练奖赏模型需要额外的训练资源，这会使整个训练流水线变得复杂。

2.2.3.训练模板

为了训练DeepSeek-R1-Zero，我们开始设计一个简单的模板，该模板引导基础模型遵守我们指定的指令。如表1所示，该模板要求DeepSeek-R1-Zero首先生成推理过程，然后生成最终答案。我们有意地将约束限制在这种结构格式上，避免任何特定于内容的偏见，例如强制反思推理或促进特定的问题解决策略，以确保我们可以在RL过程中准确地观察模型的自然进展。

2.2.4.DeepSeek-R1-Zero的性能、自演化过程及Aha矩

DeepSeek-R1-Zero的性能 图2描绘了DeepSeekR 1-Zero在整个RL训练过程中在AIME 2024基准测试中的性能轨迹。如图所示，DeepSeek-R1-Zero显示了随着RL训练的推进，性能的稳定和一致的增强。值得注意的是，AIME 2024的平均pass@1分数显着增加，从最初的15.6%跃升至令人印象深刻的71.0%，达到与OpenAI-o 1 -0912相当的性能水平。这一显著的改进突出了我们的RL算法在优化模型性能方面的有效性。

图2|培训期间DeepSeek-R1-Zero的AIME准确度。对于每个问题，我们抽取16个答案，并计算总体平均准确度，以确保稳定的评估。

表2| DeepSeek-R1-Zero和OpenAI o 1模型在推理相关基准测试中的比较。

表2提供了DeepSeek-R1-Zero和OpenAI的o 1 -0912模型在各种推理相关基准测试中的比较分析。研究结果表明，RL使得DeepSeek-R1-Zero可在无需任何监督微调数据的情况下获得强大的推理能力。这是一个值得注意的成就，因为它强调了模型仅通过RL就能有效地学习和概括。此外，DeepSeekR 1-Zero的性能可通过应用多数表决进一步增强。例如，当在AIME基准测试中采用多数投票时，DeepSeek-R1-Zero的性能从71.0%提升到86.7%，从而超过了OpenAI-o 1 -0912的性能。DeepSeek-R1-Zero在有和没有多数投票的情况下都能达到如此有竞争力的性能，这突出了其强大的基础能力和在推理任务中进一步进步的潜力。

DeepSeek-R1-Zero的自演化过程 DeepSeek-R1-Zero的自进化过程是RL如何驱动模型自主提高其推理能力的一个迷人的示范。通过直接从基础模型启动RL，我们可以密切监控模型的进展，而不受监督微调阶段的影响。这种方法提供了一个清晰的视图，模型如何随着时间的推移，特别是在其处理复杂的推理任务的能力。

图3| DeepSeek-R1-Zero在RL过程中对训练集的平均响应长度。DeepSeek-R1-Zero自然地学会用更多的思考时间来解决推理任务。

如图3所示，在整个训练过程中，DeepSeek-R1-Zero的思考时间显示出一致的改善。这一改进不是外部调整的结果，而是模型内部的内在发展。DeepSeek-R1-Zero通过利用扩展的测试时间计算，自然获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理令牌，允许模型更深入地探索和改进其思维过程。

这种自我进化最显著的一个方面是，随着测试时间计算的增加，复杂行为的出现。诸如反思（即模型重新访问和评估其先前的步骤）和探索解决问题的替代方法等行为都是自发产生的。这些行为不是显式编程的，而是由于模型与强化学习环境的交互而出现的。这种自发的开发大大增强了DeepSeek-R1-Zero的推理能力，使其能够以更高的效率和准确性处理更具挑战性的任务。

表3| DeepSeek-R1-Zero中间版本的一个有趣的“顿悟时刻”。模特儿学会了用拟人化的语调来重新思考。这对我们来说也是一个顿悟的时刻，让我们见证了强化学习的力量和美好。

DeepSeek-R1-Zero的Aha时刻 在DeepSeek-R1-Zero的训练过程中观察到的一个特别有趣的现象是“啊哈时刻”的发生。如表3所示，这一时刻发生在模型的中间版本中。在此阶段，DeepSeek-R1-Zero通过重新评估其初始方法，学会为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力，也是强化学习如何导致意想不到的复杂结果的一个迷人的例子。

DeepSeek-R1-Zero的缺点 虽然DeepSeek-R1-Zero具有强大的推理能力，并自主开发出意想不到的强大推理行为，但它面临着几个问题。例如，DeepSeek-R1-Zero就面临着可读性差和语言混合等挑战。为了使推理过程更具可读性并与开放社区共享，我们探索了DeepSeek-R1，这是一种利用RL和人性化冷启动数据的方法。

2.3.DeepSeek-R1：冷启动强化学习

在DeepSeek-R1-Zero的启发下，两个自然的问题出现了：1）通过引入少量高质量的数据作为冷启动，是否可以进一步提高推理性能或加速收敛？2)我们如何才能训练出一个用户友好的模型，不仅能产生清晰连贯的思维链（CoT），还能展示出强大的综合能力？为了解决这些问题，我们设计了一个训练DeepSeek-R1的管道。该管道由四个阶段组成，概述如下。

2.3.1.冷启动

与DeepSeek-R1-Zero不同，为了防止基础模型的RL训练的早期不稳定冷启动阶段，对于DeepSeek-R1，我们构建并收集少量长CoT数据以微调模型作为初始RL参与者。为了收集这样的数据，我们探索了几种方法：使用带有长CoT的少镜头提示作为示例，直接提示模型通过反射和验证生成详细的答案，以可读格式收集DeepSeek-R1 Zero输出，并通过人工注释器的后处理来精炼结果。

在这项工作中，我们收集了数千个冷启动数据，以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比，冷启动数据的优势包括

可读性：DeepSeek-R1-Zero的一个关键限制是其内容通常不适合阅读。响应可能混合了多种语言，或者缺少标记格式，无法为用户突出显示答案。相比之下，在为DeepSeek-R1创建冷启动数据时，我们设计了一个可读模式，在每个响应的末尾都包含一个摘要，并过滤掉对读者不友好的响应。在这里，我们将输出格式定义为|特殊令牌|<reasoning_process>|，其中推理过程是查询的CoT，摘要用于汇总推理结果。
潜能：通过仔细设计具有人类先验的冷启动数据的模式，我们观察到DeepSeek-R1-Zero的更好性能。我们认为迭代训练是一种更好的推理模型的方法

2.3.2.面向推理的强化学习

在根据冷启动数据对DeepSeek-V3-Base进行微调后，我们应用与DeepSeek-R1-Zero中所采用的相同的大规模强化学习训练过程。此阶段的重点是增强模型的推理能力，特别是在涉及定义明确的问题和清晰解决方案的编码、数学、科学和逻辑推理等推理密集型任务中。在训练过程中，我们观察到CoT经常表现出语言混合，特别是当RL提示涉及多种语言时。为了缓解语言混合的问题，我们在RL训练期间引入了语言一致性奖励，该奖励被计算为CoT中目标语言单词的比例。尽管消融实验表明，这种对齐会导致模型性能的轻微下降，但这种奖励与人类偏好一致，使其更具可读性。最后，我们联合收割机推理任务的准确性和语言一致性的奖励直接相加，形成最终的奖励。然后，我们对微调后的模型应用RL训练，直到它在推理任务上达到收敛。

2.3.3.抑制采样与监督微调

当面向推理的RL收敛时，我们利用产生的检查点来收集SFT（监督微调）数据以用于下一轮。与最初的冷启动数据（主要关注推理）不同，这个阶段合并了来自其他领域的数据，以增强模型在编写、角色扮演和其他通用任务中的能力。具体来说，我们将生成数据并对模型进行微调，如下所述。

推理数据 我们通过从上述RL训练的检查点执行拒绝采样来管理推理提示并生成推理轨迹。在上一阶段，我们只纳入了可以使用基于规则的奖励进行评估的数据。然而，在这一阶段，我们通过合并额外的数据来扩展数据集，其中一些数据使用了生成性奖励模型，将地面事实和模型预测输入DeepSeek-V3进行判断。此外，由于模型输出有时混乱且难以阅读，因此我们过滤掉了包含混合语言、长段落和代码块的思路链。对于每个提示，我们对多个响应进行采样，并仅保留正确的响应。我们总共收集了大约60万个推理相关的训练样本。

非推理数据 对于非推理数据，例如写作，事实QA，自我认知和翻译，我们采用DeepSeek-V3流水线并重用DeepSeek-V3的SFT数据集的部分。对于某些非推理任务，我们调用DeepSeek-V3，在通过提示回答问题之前生成一个潜在的思路链。但是，对于简单的查询，例如“hello”，我们不提供CoT作为响应。最后，我们收集了大约20万个与推理无关的训练样本。

我们使用上述约80万个样本的数据集对DeepSeek-V3-Base进行了两个时期的微调。

2.3.4.适用于所有场景的强化学习

为了进一步使模型与人类偏好保持一致，我们实施了一个二级强化学习阶段，旨在提高模型的有用性和无害性，同时改进其推理能力。具体来说，我们使用奖励信号和各种提示分布的组合来训练模型。对于推理数据，我们坚持DeepSeek-R1-Zero中概述的方法，该方法利用基于规则的奖励来指导数学，代码和逻辑推理领域的学习过程。对于一般数据，我们采用奖励模型来捕捉复杂和细微差别场景中的人类偏好。我们在DeepSeek-V3流水线的基础上构建，并采用类似的偏好对和训练提示分布。为了提供帮助，我们专门关注最终摘要，确保评估强调响应对用户的实用性和相关性，同时最大限度地减少对潜在推理过程的干扰。对于无害性，我们评估模型的整个响应，包括推理过程和总结，以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。最终，奖励信号和不同数据分布的整合使我们能够训练出一个在推理方面表现出色的模型，同时优先考虑有益和无害。

2.4.蒸馏：赋予小型模型推理能力

为了让更高效的小型模型具备像DeepSeek-R1这样的推理能力，我们直接使用DeepSeek-R1管理的80万个样本对Qwen（Qwen，2024 b）和Llama（AI@Meta，2024）等开源模型进行了微调，详见第2.3.3节。我们的研究结果表明，这种简单的蒸馏方法显着提高了较小的模型的推理能力。我们在这里使用的基本模型是Qwen2.5-Math-1.5B、Qwen2.5-Math-7 B、Qwen2.514B、Qwen2.5- 32 B、Llama-3.1-8B和Llama-3.3- 70 B-Instruct。我们选择Llama-3.3是因为它的推理能力略好于Llama-3.1。

对于蒸馏模型，我们只应用SFT，不包括RL阶段，即使合并RL可以大大提高模型性能。我们的主要目标是证明蒸馏技术的有效性，将RL阶段的探索留给更广泛的研究社区。

三、实验

基准我们评估了MMLU模型（Hendrycks等人，2020年）、MMLU-Redux（Gema等人，2024）、MMLU-Pro（Wang等人，2024）、C-Eval（Huang等人，2023）和CMMLU（Li等人，2023）、IFEval（Zhou等人，2023）、FRAMES（Krishna等人，2024），GPQA钻石（Rein等人，2023）、简单质量保证（OpenAI，2024 c）、C-简单质量保证（He等人，2024），SWE-台架验证（OpenAI，2024d)，AIDER 1，LiveCodeBitch(Jain等人，2024)(2024-08-2025-01)，Codeforce 2，中国全国高中数学奥林匹克(CNMO 2024)3，以及美国数学邀请赛2024(AIME，2024)(MAA，2024)。除了标准基准外，我们还使用LLMS作为判断标准来评估我们的开放式发电任务模型。具体地说，我们坚持AlpacaEval 2.0(Dubois等人，2024)和Arena-Hard(Li等人，2024)的原始配置，它们利用GPT-4-Turbo-1106作为两两比较的评判。在这里，我们只将最终总结提供给评估，以避免长度偏差。对于蒸馏模型，我们报告了在AIME 2024、MAX-500、GPQA钻石、Codeforce和LiveCodeBuch上的代表性结果。

评估提示 在DeepSeek-V3中进行设置后，将使用simpleevals框架中的提示对MMLU、DROP、GPQA Diamond和SimpleQA等标准基准进行评估。对于MMLU-Redux，我们在零激发设置中采用了零评估提示格式（Lin，2024）。对于MMLU-Pro、C-Eval和CLUE-WSC，由于原来的提示是少炮，所以我们稍微修改了一下提示为零炮设置。CoT在几个镜头中可能会损害DeepSeek-R1的性能。其他数据集遵循其原始评估方案，并由其创建者提供默认提示。对于代码和数学基准测试，HumanEval-Mul数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash）。使用CoT格式评价了LiveCodeBench上的模型性能，数据收集于2024年8月至2025年1月之间。Codeforces数据集使用10个Div.2竞赛中的问题沿着专家精心制作的测试用例进行评估，然后计算预期评分和竞争对手的百分比。SWE-Bench验证的结果通过无代理框架获得（Xia等人，2024年）的报告。与艾滋病相关的基准使用“差异”格式进行衡量。对于每个基准测试，DeepSeek-R1的输出上限为最多32，768个令牌。

基线我们针对几个强大的基线进行全面评估，包括DeepSeek-V3，Claude-Sonnet-3.5-1022，GPT-4 o-0513，OpenAI-o 1-mini和OpenAI-o 1 -1217。由于在中国大陆访问OpenAI-o 1 -1217 API具有挑战性，我们根据官方报告报告其性能。对于提取模型，我们还比较了开源模型QwQ-32 B-Preview（Qwen，2024 a）。

评估设置 我们将模型的最大生成长度设置为32768个令牌。我们发现，使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著差异。因此，我们默认通过@评估（Chen et al.，2021），并使用非零温度报告pass@1。具体来说，我们使用0.6的采样温度和0.95的top-p值来为每个问题生成响应（通常在4到64之间，取决于测试集的大小）。Pass@1的计算公式为

$pass@1\:=\:\frac{1}{k}\sum_{i=1}^{k} p_i,$

其中， $p_i$ 表示第 $i$ 个响应的正确性。此方法提供了更可靠的性能估计。对于AIME 2024，我们还报告了共识（多数投票）结果（Wang et al.，2022），使用64个样本，表示为cons@64。

3.1DeepSeek-R1评估

表4| DeepSeek-R1与其他代表性模型的对比

对于面向教育的知识基准测试，如MMLU，MMLU-Pro和GPQA Diamond，DeepSeek-R1与DeepSeek-V3相比表现出上级性能。这一改进主要归功于STEM相关问题的准确性提高，其中通过大规模强化学习实现了显著收益。此外，DeepSeek-R1在FRAMES（一项长期依赖于上下文的QA任务）方面表现出色，展示了其强大的文档分析能力。这突出了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。在事实基准SimpleQA上，DeepSeek-R1的性能优于DeepSeek-V3，表明其在处理基于事实的查询方面的能力。OpenAI-o 1在此基准上超过GPT-4 o时也观察到类似的趋势。然而，在中文SimpleQA基准测试中，DeepSeek-R1的性能比DeepSeek-V3差，主要是由于其在安全RL之后倾向于拒绝回答某些查询。在没有安全RL的情况下，DeepSeek-R1可以实现超过70%的准确性。

DeepSeek-R1还在IF-Eval上取得了令人印象深刻的结果，IF-Eval是一项旨在评估模型遵循格式指令的能力的基准测试。这些改进可以与在监督微调（SFT）和RL训练的最后阶段期间包含指令遵循数据相关联。此外，在AlpacaEval2.0和ArenaHard上观察到显着的性能，表明DeepSeek-R1在写作任务和开放域问题回答方面的优势。它的性能明显优于DeepSeek-V3，突出了大规模RL的泛化优势，这不仅提高了推理能力，而且还提高了跨不同领域的性能。此外，DeepSeek-R1生成的摘要长度很简洁，ArenaHard上的平均长度为689个字符，AlpacaEval 2.0上的平均长度为2，218个字符。这表明DeepSeek-R1避免了在基于GPT的评估过程中引入长度偏差，进一步巩固了其在多个任务中的鲁棒性。

在数学任务上，DeepSeek-R1的性能与OpenAI-o 1 -1217相当，远远超过其他模型。在编码算法任务上也观察到类似的趋势，例如LiveCodeBench和Codeforces，其中以推理为中心的模型主导了这些基准测试。在面向工程的编码任务上，OpenAI-o 1 -1217在Aider上的性能优于DeepSeek-R1，但在SWE Verified上达到了相当的性能。我们相信DeepSeek-R1的工程性能将在下一个版本中得到改善，因为目前相关的RL训练数据量仍然非常有限

3.2.蒸馏模型评估

表5| DeepSeek-R1蒸馏模型和其他可比模型在推理相关基准上的比较

如表5所示，简单地蒸馏DeepSeek-R1的输出可以实现高效的DeepSeekR 1 - 7 B（即，DeepSeek-R1-Distill-Qwen-7 B，缩写如下）全面优于GPT-4 o-0513等非推理模型。DeepSeek-R1- 14 B在所有评估指标上都超过了QwQ-32 BPreview，而DeepSeek-R1- 32 B和DeepSeek-R1- 70 B在大多数基准测试上都明显超过了o 1-mini。这些结果证明了蒸馏的强大潜力。此外，我们发现将RL应用于这些蒸馏模型会产生显着的进一步收益。我们相信这需要进一步的探索，因此这里只给出简单的SFT蒸馏模型的结果。

四、讨论

4.1.蒸馏与强化学习

在3.2节中，我们可以看到，通过蒸馏DeepSeek-R1，小型模型可以获得令人印象深刻的结果。然而，仍然存在一个问题：该模型是否可以通过本文讨论的大规模RL训练而不进行蒸馏来实现可比性能？

为了回答这个问题，我们使用数学，代码和STEM数据在Qwen-32 B-Base上进行了大规模的RL训练，训练了超过10 K步，最终得到了DeepSeek-R1-Zero-Qwen-32 B。表6中所示的实验结果表明，32 B基础模型在大规模RL训练后，达到与QwQ-32 B-Preview同等的性能。然而，从DeepSeek-R1中提取的DeepSeek-R1 Distill-Qwen-32 B在所有基准测试中的表现都明显优于DeepSeek-R1-Zero-Qwen-32 B。

表6|在推理相关基准上比较蒸馏模型和RL模型

因此，我们可以得出两个结论：第一，将更强大的模型提炼成更小的模型可以得到很好的结果，而依赖于本文提到的大规模RL的更小模型需要巨大的计算能力，甚至可能达不到提炼的性能。其次，尽管提炼策略既经济又有效，但要超越智能的界限，可能仍然需要更强大的基础模型和更大规模的强化学习。

4.2.不成功的尝试

在开发DeepSeek-R1的早期阶段，我们也遇到了沿着的失败和挫折。我们在这里分享失败的经历是为了提供洞察力，但这并不意味着这些方法不能开发出有效的推理模型。

过程奖励模型（PRM）

PRM是一种合理的方法来引导模型朝着解决推理任务的更好的途径前进（Lightman等人，2023年; Uesato等人，2022; Wang等人，2023年）的报告。然而，在实践中，PRM有三个主要的限制，可能会阻碍其最终的成功。首先，在一般推理中明确定义一个细粒度的步骤是一个挑战。其次，确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型的自动注释可能不会产生令人满意的结果，而手动注释不利于按比例放大。第三，一旦引入了基于模型的PRM，就不可避免地会导致奖励黑客行为（Gao等人，2022年），而重新训练奖励模型需要额外的训练资源，这使整个训练流程变得复杂。总之，虽然PRM展示了对由模型生成的前N个响应进行重新排序或辅助引导搜索的良好能力（Snell等人，2024），但与实验中大规模强化学习过程中引入的额外计算开销相比，其优势有限。

蒙特卡罗树搜索（MCTS）

受AlphaGo启发（银et al.，2017 b）和AlphaZero（银et al.，2017a），我们探索使用蒙特卡罗树搜索（MCTS）来增强测试时计算可扩展性。这种方法涉及到将答案分解为更小的部分，以允许模型系统地探索解决方案空间。为了方便这一点，我们提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤。对于训练，我们首先使用收集的提示，通过预训练的价值模型指导的MCTS找到答案。随后，我们使用所得到的问答对来训练参与者模型和价值模型，从而迭代地改进过程。

然而，这种方法在扩大培训规模时遇到了一些挑战。首先，与搜索空间定义相对较好的国际象棋不同，令牌生成提供了一个更大的搜索空间。为了解决这个问题，我们为每个节点设置了一个最大扩展限制，但这可能会导致模型陷入局部最优。第二，价值模型直接影响生成的质量，因为它指导搜索过程的每一步。训练细粒度的价值模型本来就很困难，这使得模型的迭代改进具有挑战性。虽然AlphaGo的核心成功依赖于训练价值模型来逐步提高其性能，但由于令牌生成的复杂性，这一原则很难在我们的设置中复制。

五、结论、局限性和未来工作

在这项工作中，我们分享了通过强化学习增强模型推理能力的旅程。DeepSeek-R1-Zero代表了一种不依赖冷启动数据的纯RL方法，在各种任务中实现了强大的性能。DeepSeek-R1功能更强大，可利用冷启动数据和迭代RL微调。最终，DeepSeek-R1在一系列任务上实现了与OpenAI-o 1 -1217相当的性能。

我们进一步探讨了对小密度模型的推理能力的提炼。我们使用DeepSeek-R1作为教师模型，生成80万训练样本，并微调了几个小的密集模型。结果令人鼓舞：DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中的表现优于GPT-4 o和Claude-3.5-Sonnet，在AIME上的表现为28.9%，在MATH上的表现为83.9%。其他密集模型也取得了令人印象深刻的结果，显著优于其他基于相同底层检查点的优化模型。

未来，我们计划在DeepSeek-R1的以下方向上投资研究。

通用能力：目前，DeepSeek-R1在函数调用、多轮次、复杂角色扮演、JSON输出等任务上的能力还不如DeepSeek-V3。展望未来，我们计划探索CoT可用于增强这些领域任务的时间。
语言混合：DeepSeek-R1目前针对中文和英文进行了优化，这可能会导致在处理其他语言的查询时出现语言混合问题。例如，DeepSeek-R1可能使用英语进行推理和响应，即使查询是英语或中文以外的语言。我们的目标是在未来的更新中解决这一限制。
调试工程：在评估DeepSeek-R1时，我们观察到它对提示很敏感。少炮提示始终会降低其性能。因此，我们建议用户直接描述问题，并使用零激发设置指定输出格式，以获得最佳结果。
软件工程任务：由于评估时间长，影响了强化学习过程的效率，大规模强化学习在软件工程任务中尚未得到广泛应用。因此，在软件工程基准测试中，DeepSeek-R1并没有比DeepSeek-V3有巨大的改进。未来的版本将通过在软件工程数据上实现拒绝采样或在RL过程中引入异步评估来解决这个问题，以提高效率。