note
- DeepSeek-R1-Zero奖励:准确性奖励+格式奖励;R1-Zero不足:可读性较差、语言混合等
- DeepSeek-R1 在DeepSeek-R1-Zero基础上,借助冷启动数据和多阶段训练(增强推理过程可读性、增强面向通用指令的推理能力),进一步提升了模型性能
- DeepSeek新进展,DeepSeek V3训练和推理的扩展挑战和硬件架构的新论文,是春节附近那个V3版本的一些技术细节,论文:https://arxiv.org/pdf/2505.09343,还是那些点:
- (1)多头潜在注意力(MLA):MLA通过将所有注意力头的键值对压缩成一个较小的潜在向量来减少内存消耗。在推理过程中,只需缓存潜在向量,显著减少了内存占用。
- (2)混合专家(MoE)架构:MoE通过选择性激活-部分专家参数来显著减少训练成本。例如,DeepSeek-V3扩展到671B参数,但每标记的激活参数仅为37B。
- (3)FP8混合精度训练:FP8显著降低了计算成本,使得大规模训练更加实用。细粒度量化应用于激活和模型权重,进一步提高了计算效率。
- (4)多平面网络拓扑:采用两层胖树(Fat-Tree)网络替换传统的三层树拓扑,减少了集群网络成本。
一、DeepSeek R1训练流程回顾
1. DeepSeek-R1-Zero的训练
- DeepSeek-R1-Zero奖励:准确性奖励+格式奖励
- R1-Zero不足:可读性较差、语言混合等
2. DeepSeek-R1的训练
- DeepSeek-R1-Zero 作为纯强化学习的成功实践,证明了大语言模型在无监督数据下通过强化学习发展推理能力的可能性;
- DeepSeek-R1 在此基础上,借助冷启动数据和多阶段训练(增强推理过程可读性、增强面向通用指令的推理能力),进一步提升了模型性能,达到与 OpenAI-o1-1217 相媲美的水平,且在蒸馏小模型上也取得了优异成果。
阶段一:增强推理过程可读性
- 冷启动
- 以DeepSeek-V3为基础,构建并收集少量Long-CoT数据来微调模型,防止RL训练早期不稳定和可读性差问题。
- 推理导向的强化学习
- 以阶段1模型为基础,针对代码、数学和逻辑推理等推理密集型任务,采用与R1-Zero相同的大规模RL来进行训练。
- 引入语言一致性奖励(CoT中目标语言单词的比例)来缓解语言混杂问题
阶段二:增强面向通用指令的推理能力
-
拒绝采样和监督微调
- 通过拒绝采样,使用阶段2(推理导向的强化学习)模型合成高质量推理数据;
- 通用领域的SFT数据(V3 SFT数据+V3 COT合成数据);
- 以DeepSeek-V3为基础,微调模型以增强模型在写作、角色扮演等通用任务中的能力。
-
通用任务的强化学习
- 以阶段3模型(拒绝采样和监督微调后)为基础,通过RL提高模型的有用性和无害性,同时完善其推理能力。
- 对于推理任务,利用基于规则的奖励来指导;对于其他任务,采用奖励模型来对齐人类偏好。
拒绝采样:让模型根据prompt生成多个结果repsonse,通过一系列规则(比如答案的正确性、逻辑清晰度、语言一致性等)给每个答案打分,保留质量高的数据。
二、Deepseek怎么压缩训练成本
完整的训练pipeline:
Reference
[1] 如何评价deepseek-R1与deepseek-R1-Zero模型
[2] https://pdf.dfcfw.com/pdf/H3_AP202502071642869956_1.pdf?1738953726000.pdf
[3] DeepSeek R1架构和训练过程图解(好文):http://www.hubwiz.com/blog/deepseek-r1-architecture-and-training/