2025绝对是国内AI大爆发的元年,距离DeepSeek-V3震撼全球没多久
又推出了DeepSeek-R1,还是全开源,在数学、代码和自然语言推理等任务上都媲美o1
做到了真正的Open AI,而在大洋彼岸的“OpenAI”实则不过是Close AI 罢了。
相信国内的大模型技术发展一定会越来越好!遥遥领先!
目前刚发布DeepSeek-R1与之前的DeepSeek-V3区别如下:
DeepSeek-R1 通过使用多阶段循环的训练方式:基础→RL→微调→RL→微调→RL,极大加强了大模型的深度思考能力。
大家可以在通过下方的体验地址
https://www.deepseek.com/
点击深度思考就可以体验最新的DeepSeek-R1模型
相信效果一定会让大家赞叹不已!
该技术报告已开源,罕见的介绍了大模型研发过程中的失败经验和教训(见推文第6节),还指出了未来的研究方向(见推文第8节),下面让我来为朋友们详细解读,希望大家从中能有所收获!
【标题】
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
1.摘要
本文隆重介绍了第一代推理模型
DeepSeek-R1-Zero 和 DeepSeek-R1
DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,无需监督微调(SFT)作为初步步骤,展现出卓越的推理能力。
通过强化学习,DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。
然而,它面临可读性差和语言混杂等挑战。
为了解决这些问题并进一步提高推理性能,本文提出了 DeepSeek-R1
该模型在强化学习之前融入了多阶段训练和冷启动数据。
DeepSeek-R1 在推理任务上的性能与 OpenAI-o1-1217 相当。
为了支持研究社区,本文开源了 DeepSeek-R1-Zero、DeepSeek-R1
以及基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的六个稠密模型(1.5B、7B、 8B、14B、32B、70B参数规模)。
2.引言
近年来,LLMs经历了快速的迭代和演进,与AGI的差距逐渐缩小。
目前模型训练后优化已成为完整训练流程的重要组成部分。
研究表明,它能提高推理任务的准确性,符合社会价值观,并适应用户偏好,同时与预训练相比,所需的计算资源相对较少。
在推理能力方面,OpenAI 的 o1 系列模型率先通过增加思维链推理过程的长度来进行推理时的扩展。
这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。
此前的方法中没有一种能在通用推理性能上与 OpenAI 的 o1 系列模型相媲美。
本文迈出了使用纯强化学习RL来提升语言模型推理能力的第一步。
团队的目标是探索LLMs在无需任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯强化学习过程实现自我进化。
具体而言,本团队使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架,以提高模型在推理方面的性能。
在训练过程中,DeepSeek-R1-Zero 自然地展现出许多强大且有趣的推理行为。
经过数千步的强化学习,DeepSeek-R1-Zero 在推理基准测试中表现卓越。
然而,DeepSeek-R1-Zero 面临着诸如可读性差和语言混杂等挑战。
为了解决这些问题并进一步提高推理性能,提出了 DeepSeek-R1,它整合了少量冷启动数据和多阶段训练流程。
具体来说,首先收集数千条冷启动数据来微调 DeepSeek-V3-Base 模型。
随后,像训练 DeepSeek-R1-Zero 一样进行面向推理的强化学习。
在强化学习过程接近收敛时,通过对强化学习检查点进行拒绝采样
并结合来自 DeepSeek-V3 在写作、事实性问答和自我认知等领域的监督数据,创建新的SFT数据,然后重新训练 DeepSeek-V3-Base 模型。
使用新数据微调后,该检查点会经历额外的强化学习过程,同时考虑所有场景的提示。
经过这些步骤,得到了一个名为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。
进一步探索从 DeepSeek-R1 中提炼推理能力到较小的稠密模型中。
以 Qwen2.532B 为基础模型,直接从 DeepSeek-R1 中提炼的效果优于在其基础上应用强化学习。
这表明较大基础模型发现的推理模式对于提高推理能力至关重要。
本团队开源了提炼后的 Qwen 和 Llama 系列模型。
值得注意的是,本文提炼的 140 亿参数模型在性能上大幅超越了最先进的开源模型 QwQ-32B-Preview
而提炼的 320 亿和 700 亿参数模型在稠密模型的推理基准测试中创下了新纪录。
3.贡献
3.1 训练后优化:在基础模型上进行大规模强化学习
直接将强化学习应用于基础模型,而不依赖监督微调作为初步步骤。
这种方法使模型能够探索CoT来解决复杂问题,从而开发出 DeepSeek-R1-Zero。
DeepSeek-R1-Zero 展示了自我验证、反思和生成长思维链等能力,为研究界树立了重要的里程碑。
值得注意的是,这是首次公开研究验证大语言模型的推理能力可以纯粹通过强化学习来激发,而无需监督微调。这一突破为该领域未来的发展铺平了道路。
3.2 开发 DeepSeek-R1 的 pipeline
该流程包含两个强化学习阶段,旨在发现改进的推理模式并符合人类偏好;
还包括两个监督微调阶段,为模型的推理和非推理能力提供基础。
本团队相信这个流程将通过创建更好的模型,使整个行业受益。
3.3 模型提炼:小模型也可以很强大
证明了较大模型的推理模式可以提炼到较小模型中,与通过在小模型上应用强化学习所发现的推理模式相比,能带来更好的性能。
开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来提炼出更好的小模型。
3.4 微调稠密模型
使用 DeepSeek-R1 生成的推理数据,对研究社区中广泛使用的几个稠密模型进行了微调。
评估结果表明,提炼后的较小稠密模型在基准测试中表现出色。
DeepSeekR1-Distill-Qwen-7B 在 AIME 上的得分为 55.5%,超过了 QwQ-32B-Preview。
此外,DeepSeek-R1-Distill-Qwen-32B 在 2024 年 AIME 上的得分达到 72.6%
在 MATH-500 上的得分达到 94.3%,在 LiveCodeBench 上的得分达到 57.2%。
这些结果显著超越了以前的开源模型,与 o1-mini 相当。
本团队向社区开源了基于 Qwen2.5 和 Llama3 系列提炼的 1.5B、7B、 8B、14B、32B、70B参数模型的检查点。
4.技术方案
4.1 整体概述
以往研究多依赖大量监督数据提升模型性能,本研究表明,大规模RL可显著提升推理能力,即便不使用SFT作为冷启动。
少量冷启动数据的加入还能进一步提升性能。具体介绍了以下三方面内容:
DeepSeek-R1-Zero:直接对基础模型应用强化学习,不使用任何 SFT 数据。
DeepSeek-R1:从用数千个长思维链示例微调后的检查点开始应用强化学习。
模型蒸馏:将 DeepSeek-R1 的推理能力蒸馏到小型稠密模型中。
4.2 DeepSeek-R1-Zero:基础模型上的强化学习
4.2.1 强化学习算法
采用GRPO算法以节省强化学习的训练成本。
该算法舍弃了通常与策略模型大小相同的价值网络,从组得分中估计基线。
对于每个问题,GRPO 从旧策略中采样一组输出
然后通过最大化以下目标来优化策略模型:
其中,和是超参数,是优势
通过每组输出对应的一组奖励计算得出:
4.2.2 奖励建模
采用基于规则的奖励系统,主要包含两种奖励类型:
准确率奖励:评估模型的回答是否正确。如在数学问题中,要求模型按指定格式给出最终答案,以便基于规则可靠地验证正确性。
在 LeetCode 问题中,可使用编译器根据预定义测试用例生成反馈。
格式奖励:促使模型将思考过程置于‘’和‘’标签之间。
不使用结果或过程神经奖励模型,因为其在大规模强化学习过程中可能遭受奖励篡改,重新训练奖励模型需要额外资源,还会使整个训练流程复杂化。
4.2.3 训练模板
设计简单模板引导基础模型遵循指定指令,要求 DeepSeek-R1-Zero 先产生推理过程,再给出最终答案。
仅对结构格式进行限制,避免内容特定偏差,以准确观察模型在强化学习过程中的自然发展。
4.2.4 性能、自我进化过程和顿悟时刻
性能:在 AIME 2024 基准测试中,DeepSeek-R1-Zero 的性能随强化学习训练稳步提升
平均单次通过率(pass@1)得分从初始的 15.6% 显著提高到 71.0%,达到与 OpenAI-o1-0912 相当的水平。
通过多数投票,其在 AIME 基准测试上的性能可从 71.0% 提升到 86.7%,超过 OpenAI-o1-0912。(相关性能数据对比见图 2 和表 2)
自我进化过程:训练过程中,DeepSeek-R1-Zero 的思考时间不断改善
自然地获得了利用更长测试时间计算来解决日益复杂推理任务的能力,能够生成数百到数千个推理tokens,探索和完善其思维过程。
随着测试时间计算的增加,还出现了反思和探索替代解题方法等复杂行为。(自我进化过程中平均响应长度变化见图 3)
顿悟时刻:训练过程中出现 “顿悟时刻”,模型学会重新评估初始方法,为问题分配更多思考时间。
这不仅体现了模型推理能力的提升,也展示了强化学习可带来意想不到的复杂结果。
“顿悟时刻” 示例见表 3,展示了 DeepSeek-R1-Zero 中间版本的一个有趣 “顿悟时刻”,模型学会用拟人化语气重新思考。
缺点:DeepSeek-R1-Zero 存在可读性差和语言混杂等问题,为解决这些问题并使推理过程更易读,研究团队探索了 DeepSeek-R1 方法。
4.3 DeepSeek-R1:冷启动的强化学习
4.3.1 冷启动
为避免强化学习训练早期不稳定,构建并收集少量长 CoT 数据对 DeepSeek-V3-Base 模型进行微调,作为初始 RL 智能体。
收集数据的方法包括使用长 CoT 示例进行少样本提示、直接提示模型生成带反思和验证的详细答案、收集 DeepSeek-R1-Zero 的可读格式输出并由人工标注后处理优化结果等。
冷启动数据的优势在于提高了可读性,通过设计包含推理过程总结的输出格式,并过滤掉不友好的输出;
利用人类先验设计冷启动数据模式,其性能优于 DeepSeek-R1-Zero,迭代训练更适合推理模型。
4.3.2 面向推理的强化学习
在冷启动数据上微调 DeepSeek-V3-Base 后,采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。
该阶段聚焦提升模型在编码、数学、科学和逻辑推理等推理稠密型任务中的能力。
训练中发现 CoT 存在语言混杂问题,为此引入语言一致性奖励,计算 CoT 中目标语言单词的比例。
虽然消融实验表明这种调整会使模型性能略有下降,但符合人类偏好,使推理过程更易读。
最终,将推理任务的准确率和语言一致性奖励直接相加形成最终奖励,对微调后的模型进行强化学习训练,直至推理任务收敛。
4.3.3 拒绝采样和监督微调
当面向推理的 RL 收敛后,利用所得检查点收集 SFT 数据用于后续轮次训练。
此阶段的数据收集与初始冷启动数据不同,除推理数据外,还纳入其他领域数据以增强模型在写作、角色扮演和其他通用任务中的能力。
推理数据:精心策划推理提示,通过对上述 RL 训练的检查点进行拒绝采样生成推理轨迹。
扩展数据集,纳入部分使用生成式奖励模型的数据,通过将真实答案和模型预测输入 DeepSeek-V3 进行判断。
过滤掉语言混杂、长段落和代码块的思维链,为每个提示采样多个响应并仅保留正确的,共收集约 60 万个推理相关训练样本。
非推理数据:对于写作、事实性问答、自我认知和翻译等非推理数据,采用 DeepSeek-V3 的流程并复用部分其 SFT 数据集。
对于某些非推理任务,在回答问题前调用 DeepSeek-V3 生成潜在的思维链;
对于简单查询,如 “hello”,则不提供思维链。
最终共收集约 20 万个与推理无关的训练样本。
使用约 80 万个样本的数据集对 DeepSeek-V3-Base 进行两轮微调。
4.3.4 所有场景的强化学习
为使模型更符合人类偏好,实施二次强化学习阶段,旨在提高模型的有用性和无害性,同时优化其推理能力。
使用奖励信号和多样化提示分布训练模型,对于推理数据,遵循 DeepSeek-R1-Zero 中基于规则的奖励方法指导学习;
对于通用数据,借助奖励模型捕捉复杂场景中的人类偏好。
基于 DeepSeek-V3 的流程,采用类似的偏好对和训练提示分布。
评估有用性时,仅关注最终总结,确保评估强调响应对用户的实用性和相关性,同时尽量减少对底层推理过程的干扰;
评估无害性时,评估模型的整个响应,包括推理过程和总结,识别并减轻生成过程中可能出现的潜在风险、偏差或有害内容。
通过整合奖励信号和多样化数据分布,训练出在推理方面表现出色,同时注重有用性和无害性的模型。
4.4 蒸馏:赋予小模型推理能力
为使更高效的小模型具备类似 DeepSeek-R1 的推理能力,使用为 DeepSeek-R1 精心整理的 80 万个样本,直接对 Qwen 和 Llama 等开源模型进行微调。
结果表明,这种简单的蒸馏方法可显著提升小模型的推理能力。
使用的基础模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。
对于蒸馏后的模型,仅应用 SFT,不包含 RL 阶段,目的是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区。
5.实验结果
DeepSeek-R1 评估
在教育知识类基准测试如:MMLU、MMLU-Pro、GPQA Diamond
DeepSeek-R1 性能优于 DeepSeek-V3,在 FRAMES 长文本问答任务中表现出色,在 SimpleQA 事实性基准测试上也超越 DeepSeek-V3
但在中文 SimpleQA 基准测试中因安全 RL 导致表现不如 DeepSeek-V3,若去除安全 RL,准确率能超 70%。
在 IF-Eval 格式指令遵循基准测试、AlpacaEval2.0 和 ArenaHard 写作与开放域问答任务中
DeepSeek-R1 表现优异,生成的总结长度简洁,在基于 GPT 的评估中避免了长度偏差,体现了模型在多任务上的稳健性。
在数学任务和编码算法任务如:LiveCodeBench 和 Codeforces
DeepSeek-R1 与 OpenAI-o1-1217 表现相当,大幅超越其他模型;
在工程导向的编码任务上,OpenAI-o1-1217 在 Aider 上表现更优,但在 SWE Verified 上二者性能相近
随着相关 RL 训练数据增加,DeepSeek-R1 工程性能有望提升。
蒸馏模型评估
蒸馏 DeepSeek-R1 的输出,能让小模型性能提升显著。
如 DeepSeek-R1-Distill-Qwen-7B 全面超越 GPT-4o-0513
DeepSeek-R1-14B 在所有评估指标上优于 QwQ-32B-Preview
DeepSeek-R1-32B 和 DeepSeek-R1-70B 在多数基准测试中大幅超过 o1-mini
此外,对蒸馏模型应用 RL 还可能进一步提升性能,文中仅展示了简单 SFT 蒸馏模型的结果。
讨论
主要探讨了蒸馏与强化学习的效果对比,分享了开发过程中失败的尝试及原因,为后续研究提供参考,具体内容如下:
6.1 蒸馏与强化学习
通过实验对比蒸馏和强化学习对模型性能的影响。
对 Qwen-32B-Base 进行超 10,000 步的大规模强化学习训练,得到 DeepSeek-R1-Zero-Qwen-32B,其性能与 QwQ-32B-Preview 相当。
而从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现,都显著优于 DeepSeek-R1-Zero-Qwen-32B。
由此得出结论,将强大模型的知识蒸馏到较小模型中效果出色,小模型依靠大规模强化学习不仅计算成本高昂,还可能无法达到蒸馏的性能;
蒸馏策略经济有效,但要突破智能边界,可能仍需更强大的基础模型和更大规模的强化学习。(相关对比数据见表 6,位于原文 4.1 节)
6.2 失败尝试
过程奖励模型(PRM):PRM 旨在引导模型找到更好的推理方法,但在实际应用中有明显局限性,难以明确界定一般推理中的细粒度步骤;
判断当前中间步骤的正确性困难,自动标注效果不佳,手动标注不利于大规模应用;
引入基于模型的 PRM 会导致奖励作弊,重新训练奖励模型不仅增加计算成本,还使训练流程更复杂。
在大规模强化学习实验中,PRM 带来的优势相较于其引入的计算开销而言较为有限
不过它在对模型生成的前 N 个响应进行重新排序或辅助引导搜索方面有一定作用。
蒙特卡洛树搜索(MCTS):受 AlphaGo 和 AlphaZero 启发,尝试用 MCTS 提升测试时计算的可扩展性,让模型系统地探索解决方案空间。
训练时先借助预训练价值模型通过 MCTS 找到答案,再用问题-答案对训练行为模型和价值模型。
然而,在大规模训练时面临挑战,tokens生成的搜索空间非常大,设置节点扩展限制易使模型陷入局部最优;
训练精细的价值模型难度大,影响模型迭代改进,难以像 AlphaGo 那样通过训练价值模型提升性能。
虽然 MCTS 与预训练价值模型结合可在推理时提升性能,但通过自我搜索迭代提升模型性能仍面临重大挑战。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。