DeepSeek-R1 系列确实包含两个核心版本:R1-Zero 和 R1,它们在训练方法、性能表现和应用场景上存在显著差异。以下是详细扩充:
1. R1-Zero:纯强化学习的突破性实验
• 训练方法:
R1-Zero 完全摒弃监督微调(SFT),直接从基础模型(DeepSeek-V3-base)出发,通过纯强化学习(RL)训练推理能力。其核心算法 GRPO(组相对策略优化)通过动态调整奖励机制,引导模型自主探索解题策略。
• 奖励设计:仅依赖硬规则(如答案准确性、格式规范),避免人工标注数据干预。
• 参数规模:671B 参数的 MoE 架构,每个 token 激活 37B 参数,计算效率极高。
• 能力与局限:
• 优势:
◦ 在 AIME 2024 数学竞赛中达到 71% 准确率,涌现自我验证、长思维链(CoT)推理等行为。
◦ 推理过程突破自然语言约束,在非语言空间进行高效计算(如连续思维链)。
• 局限:
◦ 输出可读性差,语言一致性较低(需后续版本优化)。
◦ 幻觉率高达 14.3%,显著高于监督微调模型(如 DeepSeek-V3 的 3.9%)。
2. R1:面向应用的优化版本
• 训练改进:
R1 在 R1-Zero 基础上引入两轮改进:
- 监督微调(SFT)冷启动:使用 800K 样本(60% 推理相关)提升语言可读性。
- 偏好对齐:加入安全性和用户体验奖励模型,减少有害输出。
• 性能对比:
指标 | R1-Zero | R1 |
---|---|---|
AIME 2024 | 71% | 79.8% |
MATH-500 | - | 97.3% |
幻觉率 | 14.3% | <5% |
• 应用场景:
• 企业级推理:百度搜索、快手等已接入 R1 满血版,处理复杂查询和代码生成。
• 低成本部署:API 价格仅为 OpenAI o1 的 3%(输入 tokens ¥1/百万)。
3. 技术架构共性
• MoE 设计:两者均采用混合专家架构,动态路由任务至不同子网络(如 R1 的 671B 参数中仅激活 37B/Token)。
• FP8 训练:首个开源 MoE 模型使用 FP8 混合精度,降低 40% 训练成本。
4. 行业影响
• 开源生态:R1 系列以 MIT 协议开源,推动国产 GPU 适配(如华为昇腾)。
• 推理革命:证明纯 RL 可驱动推理能力,挑战传统 SFT 依赖(如 GPT 系列)。