DeepSeek-R1 技术路径示意图与训练流程解析

注:完整技术路径示意图可参考DeepSeek官方GitHub提供的训练流程图。该流程通过多阶段迭代,最终使模型在保持通用能力的同时,获得顶尖的数学推理性能。

一、技术路径示意图(文字版)

[基础模型] → [冷启动阶段] → [监督微调(SFT)]  
      ↓              ↗  
[GRPO强化学习] ← [拒绝采样]  
      ↓              ↓  
[通用RL训练] → [蒸馏部署]  

二、训练流程详解(附关键技术说明)

1. 冷启动阶段(阶段1)

输入:DeepSeek-V3-Base(未微调的基础模型)
核心操作

  • 收集3,000条高质量长推理链数据,包含数学/编程问题的分步解答
  • 使用结构化模板强制模型输出:
    <推理过程> 
    {
         详细推导步骤} 
    </推理过程>
    <摘要>
    {
         最终答案}
    </摘要>
    

创新点

  • 融合少样本提示
  • 人工修正AI生成的错误步骤(来自DeepSeek-R1-Zero的输出)
2. 监督微调(SFT)(阶段2)

输入:冷启动后的模型
数据构成

数据类型 样本量 来源
数学推理 60万 GRPO模型生成 + 过滤
编程竞赛解答 20万 Codeforces历史题库
科学问题推导 10万 GPQA等学术数据集

训练策略

  • 两阶段微调:先推理任务后通用任务
  • 引入多Token预测(MTP)提升生成稳定性
3. 推理导向强化学习(阶段3)

算法核心:Group Relative Policy Optimization (GRPO)

# 简化版GRPO流程
for 每个问题q:
    生成5个候选答案{
   o1,o2,...,o5}
    计算组内奖励均值μ = avg(r1,r2,.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python收藏家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值