注:完整技术路径示意图可参考DeepSeek官方GitHub提供的训练流程图。该流程通过多阶段迭代,最终使模型在保持通用能力的同时,获得顶尖的数学推理性能。
一、技术路径示意图(文字版)
[基础模型] → [冷启动阶段] → [监督微调(SFT)]
↓ ↗
[GRPO强化学习] ← [拒绝采样]
↓ ↓
[通用RL训练] → [蒸馏部署]
二、训练流程详解(附关键技术说明)
1. 冷启动阶段(阶段1)
• 输入:DeepSeek-V3-Base(未微调的基础模型)
• 核心操作:
- 收集3,000条高质量长推理链数据,包含数学/编程问题的分步解答
- 使用结构化模板强制模型输出:
<推理过程> { 详细推导步骤} </推理过程> <摘要> { 最终答案} </摘要>
• 创新点:
- 融合少样本提示
- 人工修正AI生成的错误步骤(来自DeepSeek-R1-Zero的输出)
2. 监督微调(SFT)(阶段2)
• 输入:冷启动后的模型
• 数据构成:
数据类型 | 样本量 | 来源 |
---|---|---|
数学推理 | 60万 | GRPO模型生成 + 过滤 |
编程竞赛解答 | 20万 | Codeforces历史题库 |
科学问题推导 | 10万 | GPQA等学术数据集 |
• 训练策略:
- 两阶段微调:先推理任务后通用任务
- 引入多Token预测(MTP)提升生成稳定性
3. 推理导向强化学习(阶段3)
• 算法核心:Group Relative Policy Optimization (GRPO)
# 简化版GRPO流程
for 每个问题q:
生成5个候选答案{
o1,o2,...,o5}
计算组内奖励均值μ = avg(r1,r2,.