为什么 DeepSeek-R1-Zero 特别?
DeepSeek-R1-Zero 是首个完全基于强化学习训练的推理大模型,它在训练过程中完全不依赖监督微调(Supervised Fine-Tuning, SFT),这在 AI 训练领域是一次大胆的尝试。
大多数 AI 训练方法都依赖人类提供的大量标注数据,但 DeepSeek-R1-Zero 选择了“让 AI 自己探索推理规律”。
这一创新让 AI 在数学、代码、逻辑推理等任务上展现出惊人的自我进化能力,同时也带来了一些问题,比如可读性问题、语言混杂、推理链条不稳定。
下面我将 DeepSeek-R1-Zero 的训练机制、性能表现以及存在的局限性进行了总结。
1. DeepSeek-R1-Zero 的训练机制
传统 AI 训练方式通常包括两个核心步骤:
- 预训练(Pre-training):在海量文本数据上训练一个大语言模型,让它学会基本的语言能力和常识。
- 监督微调(Supervised Fine-Tuning, SFT):使用人工标注的高质量数据来进一步微调模型,使其在特定任务(如数学推理、代码生成等)上表现更好。
DeepSeek-R1-Zero 直接跳过了 SFT 阶段,而是采用强化学习(Reinforcement Learning, RL),让 AI 自己探索推理规律。
这种方法的训练过程如下:
① 强化学习训练(Reinforcement Learning)
DeepSeek-R1-Zero 采用了一种名为 Group Relative Policy Optimization (GRPO) 的强化学习算法:
- 不需要“批评者模型”(Critic Model):传统的强化学习往往需要一个与 AI 体积相同的“裁判”来评估 AI 生成的答案是否合理,而 GRPO 直接通过一组样本计算基准分数,减少了计算开销。
- 奖励信号(Reward Modeling):AI 通过不断生成答案,并根据奖励机制进行优化,形成更优的推理能力。
- 准确性奖励(Accuracy Reward):AI 生成的答案正确,就会得到较高的奖励。
- 格式奖励(Format Reward):AI 需要在
<think>
标签中写推理过程,在<answer>
标签中写最终答案,这样可以保证推理链条的清晰度。
2. DeepSeek-R1-Zero 的“自我进化”
在强化学习的过程中,DeepSeek-R1-Zero 自己学会了一些意想不到的能力,比如:
- 反思能力(Reflection):AI 在推理过程中发现错误时,会自动调整自己的思路,甚至会标记“这一步可能有问题”,然后重新思考解法。
- 自我验证(Self-Verification):AI 会使用不同的方法来检查自己的答案是否正确。
- 生成更长的推理链(Longer Chain-of-Thoughts):起初 AI 只会做 2-3 步推理,后来能逐步扩展到 10 步以上,从简单问题到复杂问题的推理能力都在增强。
DeepSeek-R1-Zero 甚至出现了研究人员称之为“aha 时刻(Aha Moment)”的现象:
- 研究人员观察到 AI 在训练过程中会突然“顿悟”,自发地改变推理方式,让答案更加精准。
- 例如,在解数学方程时,AI 在某个训练阶段开始学会重新审视自己的答案,并进行修正。
这种自我优化能力,使得 DeepSeek-R1-Zero 在多个推理任务上取得了突破性的成绩。
3. DeepSeek-R1-Zero 的性能表现
为了验证 DeepSeek-R1-Zero 的推理能力,研究人员在多个基准测试(Benchmark)上进行了评估,结果如下:
任务 | OpenAI-o1-mini | OpenAI-o1-0912 | DeepSeek-R1-Zero |
---|---|---|---|
AIME 2024 数学竞赛(Pass@1) | 63.6% | 74.4% | 71.0% |
MATH-500 数学任务(Pass@1) | 90.0% | 94.8% | 95.9% |
GPQA 复杂问题解答(Pass@1) | 60.0% | 77.3% | 73.3% |
Codeforces 代码推理排名 | 1820(Elo 评分) | 1843 | 1444 |
分析:
- 数学推理任务:DeepSeek-R1-Zero 在 AIME 2024 和 MATH-500 的成绩远超传统监督学习训练的模型,证明强化学习能显著增强数学推理能力。
- 复杂问题解答(GPQA):相比 OpenAI-o1-mini,DeepSeek-R1-Zero 的正确率提升了 13.3%。
- 代码推理任务:尽管 DeepSeek-R1-Zero 仍然落后于 OpenAI-o1-0912,但在强化学习的帮助下,它已经具备了相当强的代码分析能力。
4. DeepSeek-R1-Zero 的局限
尽管 DeepSeek-R1-Zero 在推理能力上取得了突破,但由于缺乏 SFT(人类标注数据的微调),它仍然存在一些问题:
语言混乱(Language Mixing)
- 由于 AI 没有接受足够的自然语言训练,它生成的文本可能会出现多种语言混杂的问题,影响可读性。
可读性差(Poor Readability)
- AI 可能会生成大量重复内容,甚至逻辑混乱,导致输出质量下降。
训练难度大
- 由于没有 SFT 作为起点,AI 在训练早期会生成很多错误答案,导致强化学习的收敛速度变慢。
这些问题的出现,让研究人员开发了 DeepSeek-R1,即在 RL 训练前先用冷启动数据(Cold-Start Data)进行微调,从结果上看,R1 很好的解决这些问题。
一点总结
DeepSeek-R1-Zero 是首个完全通过强化学习训练的推理大模型,它展现了惊人的自我学习能力,比如: ✅ 自动优化推理过程,具备反思、自我验证等能力
✅ 在数学、代码推理等任务上取得突破性成绩
✅ 在 AIME 2024 数学竞赛上,正确率从 15.6% 提升到 71.0%
但是它存在语言混乱、可读性差等问题,从而让研究人员开发了 DeepSeek-R1,结合冷启动数据 + 强化学习,以进一步提升 AI 的推理能力。
我创建了一个《小而精的AI学习圈》知识星球,星球上有几十万字原创高质量的技术专栏分享,同时你也可以在星球向我提问。 点击这里,我们星球见! 点击这里查看所有 AI 技术专栏