我们推出的DeepSeek-V3是一个强大的专家混合(MoE)语言模型,它拥有671B个总参数,每个标记有37B个激活参数。 为了实现高效推理和低成本训练,DeepSeek-V3采用了多头潜意识(MLA)和DeepSeekMoE架构,这在DeepSeek-V2中得到了充分验证。 此外,DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略,并设定了多标记预测训练目标,以提高性能。 我们在14.8万亿个不同的高质量代币上对DeepSeek-V3进行预训练,然后在监督微调和强化学习阶段充分发挥其能力。 综合评估显示,DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。 尽管性能卓越,DeepSeek-V3 的全部训练仅需 2.788M H800 GPU 小时。 此外,它的训练过程也非常稳定。 在整个训练过程中,我们没有遇到任何不可恢复的损失峰值,也没有进行任何回滚。
模型概要
架构: 创新负载平衡策略和训练目标
- 在DeepSeek-V2的高效架构基础上,我们首创了一种无辅助损失的负载均衡策略,最大限度地降低了鼓励负载均衡所带来的性能下降。
- 我们研究了多令牌预测(MTP)目标,并证明它有利于提高模型性能。 它还可用于推理加速的推测解码。
预训练: 实现终极训练效率
- 我们设计了 FP8 混合精度训练框架,并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
- 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了计算与通信的完全重叠。
- 我们仅用 266.4 万 H800 GPU 小时的经济成本,就完成了 DeepSeek-V3 对 14.8T 代币的预训练,生成了目前最强的开源基础模型。 预训练后的后续训练阶段仅需 0.1 百万 GPU 小时。
后期培训: 从DeepSeek-R1中提炼知识
- 我们引入了一种创新方法,从长思维链(CoT)模型,特别是从DeepSeek R1系列模型之一,提炼推理能力到标准LLM,特别是DeepSeek-V3。 我们的管道将R1的验证和反射模式优雅地融入了DeepSeek-V3,并显著提高了其推理性能。 同时,我们还保持了对 DeepSeek-V3 输出样式和长度的控制。
模型下载
Model | #Total Params | #Activated Params | Context Length | Download |
---|---|---|---|---|
DeepSeek-V3-Base | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-V3 | 671B | 37B | 128K | 🤗 HuggingFace |
注:HuggingFace上的DeepSeek-V3模型总大小为685B,其中包括671B的主模型权重和14B的多令牌预测(MTP)模块权重。
为确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供多种本地运行模型的方法。 对于希望深入研究的开发人员,我们建议阅读 README_WEIGHTS.md,了解有关主模型权重和多令牌预测(MTP)模块的详细信息。 请注意,社区目前正在积极开发 MTP 支持,我们欢迎您的贡献和反馈。
评估结果
基础模型
标准基准
Benchmark (Metric) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | |
---|---|---|---|---|---|---|
Architecture | - | MoE | Dense | Dense | MoE | |
# Activated Params | - | 21B | 72B | 405B | 37B | |
# Total Params | - | 236B | 72B | 405B | 671B | |
English | Pile-test (BPB) | - | 0.606 | 0.638 | 0.542 | 0.548 |
BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | 87.5 | |
MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | 87.1 | |
MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | 86.2 | |
MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | 64.4 | |
DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | 89.0 | |
ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | 98.9 | |
ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | 95.3 | 95.3 | |
HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | 89.2 | 88.9 | |
PIQA (Acc.) | 0-shot | 83.9 | 82.6 | 85.9 | 84.7 | |
WinoGrande (Acc.) | 5-shot | 86.3 | 82.3 | 85.2 | 84.9 | |
RACE-Middle (Acc.) | 5-shot | 73.1 | 68.1 | 74.2 | 67.1 | |
RACE-High (Acc.) | 5-shot | 52.6 | 50.3 | 56.8 | 51.3 | |
TriviaQA (EM) | 5-shot | 80.0 | 71.9 | 82.7 | 82.9 | |
NaturalQuestions (EM) | 5-shot | 38.6 | 33.2 | 41.5 | 40.0 | |
AGIEval (Acc.) | 0-shot | 57.5 | 75.8 | 60.6 | 79.6 | |
Code | HumanEval (Pass@1) | 0-shot | 43.3 | 53.0 | 54.9 | 65.2 |
MBPP (Pass@1) | 3-shot | 65.0 | 72.6 | 68.4 | 75.4 | |
LiveCodeBench-Base (Pass@1) | 3-shot | 11.6 | 12.9 | 15.5 | 19.4 | |
CRUXEval-I (Acc.) | 2-shot | 52.5 | 59.1 | 58.5 | 67.3 | |
CRUXEval-O (Acc.) | 2-shot | 49.8 | 59.9 | 59.9 | 69.8 | |
Math | GSM8K (EM) | 8-shot | 81.6 | 88.3 | 83.5 | 89.3 |
MATH (EM) | 4-shot | 43.4 | 54.4 | 49.0 | 61.6 | |
MGSM (EM) | 8-shot | 63.6 | 76.2 | 69.9 | 79.8 | |
CMath (EM) | 3-shot | 78.7 | 84.5 | 77.3 | 90.7 | |
Chinese | CLUEWSC (EM) | 5-shot | 82.0 | 82.5 | 83.0 | 82.7 |
C-Eval (Acc.) | 5-shot | 81.4 | 89.2 | 72.5 | 90.1 | |
CMMLU (Acc.) | 5-shot | 84.0 | 89.5 | 73.7 | 88.8 | |
CMRC (EM) | 1-shot | 77.4 | 75.8 | 76.0 | 76.3 | |
C3 (Acc.) | 0-shot | 77.4 | 76.7 | 79.7 | 78.6 | |
CCPM (Acc.) | 0-shot | 93.0 | 88.5 | 78.6 | 92.0 | |
Multilingual | MMMLU-non-English (Acc.) | 5-shot | 64.0 | 74.8 | 73.8 | 79.4 |
注:最佳成绩以粗体显示。 差距不超过 0.3 的分数被视为处于同一水平。 DeepSeek-V3 在大多数基准测试中表现最佳,尤其是在数学和代码任务中。 更多评估详情,请查阅我们的论文。
上下文窗口
在 “大海捞针”(Needle In A Haystack,NIAH)测试中的评估结果。 DeepSeek-V3 在最大 128K 的所有上下文窗口长度上都表现出色。
聊天模式
标准基准(型号大于 67B)
Benchmark (Metric) | DeepSeek V2-0506 | DeepSeek V2.5-0905 | Qwen2.5 72B-Inst. | Llama3.1 405B-Inst. | Claude-3.5-Sonnet-1022 | GPT-4o 0513 | DeepSeek V3 | |
---|---|---|---|---|---|---|---|---|
Architecture | MoE | MoE | Dense | Dense | - | - | MoE | |
# Activated Params | 21B | 21B | 72B | 405B | - | - | 37B | |
# Total Params | 236B | 236B | 72B | 405B | - | - | 671B | |
English | MMLU (EM) | 78.2 | 80.6 | 85.3 | 88.6 | 88.3 | 87.2 | 88.5 |
MMLU-Redux (EM) | 77.9 | 80.3 | 85.6 | 86.2 | 88.9 | 88.0 | 89.1 | |
MMLU-Pro (EM) | 58.5 | 66.2 | 71.6 | 73.3 | 78.0 | 72.6 | 75.9 | |
DROP (3-shot F1) | 83.0 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | 91.6 | |
IF-Eval (Prompt Strict) | 57.7 | 80.6 | 84.1 | 86.0 | 86.5 | 84.3 | 86.1 | |
GPQA-Diamond (Pass@1) | 35.3 | 41.3 | 49.0 | 51.1 | 65.0 | 49.9 | 59.1 | |
SimpleQA (Correct) | 9.0 | 10.2 | 9.1 | 17.1 | 28.4 | 38.2 | 24.9 | |
FRAMES (Acc.) | 66.9 | 65.4 | 69.8 | 70.0 | 72.5 | 80.5 | 73.3 | |
LongBench v2 (Acc.) | 31.6 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | 48.7 | |
Code | HumanEval-Mul (Pass@1) | 69.3 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 | 82.6 |
LiveCodeBench (Pass@1-COT) | 18.8 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | 40.5 | |
LiveCodeBench (Pass@1) | 20.3 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | 37.6 | |
Codeforces (Percentile) | 17.5 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | 51.6 | |
SWE Verified (Resolved) | - | 22.6 | 23.8 | 24.5 | 50.8 | 38.8 | 42.0 | |
Aider-Edit (Acc.) | 60.3 | 71.6 | 65.4 | 63.9 | 84.2 | 72.9 | 79.7 | |
Aider-Polyglot (Acc.) | - | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | 49.6 | |
Math | AIME 2024 (Pass@1) | 4.6 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 | 39.2 |
MATH-500 (EM) | 56.3 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | 90.2 | |
CNMO 2024 (Pass@1) | 2.8 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | 43.2 | |
Chinese | CLUEWSC (EM) | 89.9 | 90.4 | 91.4 | 84.7 | 85.4 | 87.9 | 90.9 |
C-Eval (EM) | 78.6 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | 86.5 | |
C-SimpleQA (Correct) | 48.5 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 | 64.8 |
注:所有模型均在将输出长度限制为 8K 的配置下进行评估。 包含少于 1000 个样本的基准测试使用不同的温度设置进行了多次测试,以得出稳健的最终结果。 DeepSeek-V3 是性能最好的开源模型,与前沿的闭源模型相比也表现出了很强的竞争力。
开放式世代评估
Model | Arena-Hard | AlpacaEval 2.0 |
---|---|---|
DeepSeek-V2.5-0905 | 76.2 | 50.5 |
Qwen2.5-72B-Instruct | 81.2 | 49.1 |
LLaMA-3.1 405B | 69.3 | 40.5 |
GPT-4o-0513 | 80.4 | 51.1 |
Claude-Sonnet-3.5-1022 | 85.2 | 52.0 |
DeepSeek-V3 | 85.5 | 70.0 |
注:英语开放式对话评价。 在 AlpacaEval 2.0 中,我们使用长度控制胜率作为衡量标准。