原文链接:DeepSeek-V3
1. 介绍
DeepSeek-V3,一个强大的混合专家 (MoE) 语言模型,拥有 671B 总参数,其中每个 token 激活 37B 参数。
为了实现高效推理和成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。
此外,DeepSeek-V3 首次提出了无辅助损失的负载平衡策略,并设置了多 token 预测训练目标,以增强性能。
我们在 14.8 万亿多样且高质量的 token 上预训练了 DeepSeek-V3,之后进行了监督微调和强化学习阶段,以充分发挥其能力。
全面评估表明,DeepSeek-V3 超越了其他开源模型,并且在性能上与领先的闭源模型相当。
尽管性能卓越,DeepSeek-V3 的完整训练仅需要 2.788M H800 GPU 小时。
此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法恢复的损失峰值,也没有执行任何回滚操作。
2. 模型总结
架构:创新的负载平衡策略与训练目标
- 在 DeepSeek-V2 高效架构的基础上,我们首次提出了一种无辅助损失的负载平衡策略,最小化了由于负载平衡而导致的性能下降。
- 我们研究了多 token 预测(MTP)目标,并证明它对模型性能有益。
它还可用于推理加速的推测解码。
预训练:追求极致的训练效率
- 我们设计了一个 FP8 混合精度训练框架,并首次验证了在极大规模模型上使用 FP8 训练的可行性和有效性。
- 通过算法、框架和硬件的共同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了计算与通信的完全重叠。
这大大提高了我们的训练效率,并减少了训练成本,使我们能够在不增加额外开销的情况下进一步扩展模型规模。 - 在仅需 2.664M H800 GPU 小时的经济成本下,我们完成了 DeepSeek-V3 在 14.8T tokens 上的预训练,生产出当前最强大的开源基础模型。预训练后的后续训练阶段仅需 0.1M GPU 小时。
后训练:从 DeepSeek-R1 中蒸馏知识
- 我们引入了一种创新的方法,从长链思维(CoT)模型中提取推理能力,特别是从 DeepSeek R1 系列模型中,将其蒸馏到标准 LLM,特别是 DeepSeek-V3。我们的流程巧妙地将 R1 的验证和反思模式整合到 DeepSeek-V3 中,显著提高了其推理能力。同时,我们也控制了 DeepSeek-V3 输出的风格和长度。
3. 模型下载
模型 | 总参数 | 激活参数 | 上下文长度 | 下载 |
---|---|---|---|---|
DeepSeek-V3-Base | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-V3 | 671B | 37B | 128K | 🤗 Hugging Face |
[!NOTE]
DeepSeek-V3 模型在 Hugging Face 上的总大小为 685B,其中包含 671B 的主模型权重和 14B 的多 token 预测(MTP)模块权重。
为了确保最佳的性能和灵活性,我们与开源社区和硬件供应商合作,提供了多种方式以在本地运行模型。有关详细的步骤,请参阅第 6 节:如何在本地运行。
对于希望深入了解的开发者,我们建议查看 README_WEIGHTS.md,了解有关主模型权重和多 token 预测(MTP)模块的更多细节。请注意,MTP 支持目前仍在社区开发中,我们欢迎您的贡献和反馈。
4. 评估结果
基础模型
标准基准测试
基准(指标) | 样本数量 | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | |
---|---|---|---|---|---|---|
架构 | - | MoE | Dense | Dense | MoE | |
激活参数 | - | 21B | 72B | 405B | 37B | |
总参数 | - | 236B | 72B | 405B | 671B | |
英文 | Pile-test (BPB) | - | 0.606 | 0.638 | 0.542 | 0.548 |
BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | 87.5 | |
MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | 87.1 | |
MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | 86.2 | |
MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | 64.4 | |
DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | 89.0 | |
ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | 98.9 | |
ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | 95.3 | 95.3 | |
HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | 89.2 | 88.9 |