【上篇】DeepSeek-V3-Base:前所未见的突破革新多语言编程

我们推出的DeepSeek-V3是一个强大的专家混合(MoE)语言模型,它拥有671B个总参数,每个标记有37B个激活参数。 为了实现高效推理和低成本训练,DeepSeek-V3采用了多头潜意识(MLA)和DeepSeekMoE架构,这在DeepSeek-V2中得到了充分验证。 此外,DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略,并设定了多标记预测训练目标,以提高性能。 我们在14.8万亿个不同的高质量代币上对DeepSeek-V3进行预训练,然后在监督微调和强化学习阶段充分发挥其能力。 综合评估显示,DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。 尽管性能卓越,DeepSeek-V3 的全部训练仅需 2.788M H800 GPU 小时。 此外,它的训练过程也非常稳定。 在整个训练过程中,我们没有遇到任何不可恢复的损失峰值,也没有进行任何回滚。

在这里插入图片描述

模型概要

架构: 创新负载平衡策略和训练目标
  • 在DeepSeek-V2的高效架构基础上,我们首创了一种无辅助损失的负载均衡策略,最大限度地降低了鼓励负载均衡所带来的性能下降。
  • 我们研究了多令牌预测(MTP)目标,并证明它有利于提高模型性能。 它还可用于推理加速的推测解码。
预训练: 实现终极训练效率
  • 我们设计了 FP8 混合精度训练框架,并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
  • 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了计算与通信的完全重叠。
  • 我们仅用 266.4 万 H800 GPU 小时的经济成本,就完成了 DeepSeek-V3 对 14.8T 代币的预训练,生成了目前最强的开源基础模型。 预训练后的后续训练阶段仅需 0.1 百万 GPU 小时。
后期培训: 从DeepSeek-R1中提炼知识
  • 我们引入了一种创新方法,从长思维链(CoT)模型,特别是从DeepSeek R1系列模型之一,提炼推理能力到标准LLM,特别是DeepSeek-V3。 我们的管道将R1的验证和反射模式优雅地融入了DeepSeek-V3,并显著提高了其推理性能。 同时,我们还保持了对 DeepSeek-V3 输出样式和长度的控制。

模型下载

Model#Total Params#Activated ParamsContext LengthDownload
DeepSeek-V3-Base671B37B128K🤗 HuggingFace
DeepSeek-V3671B37B128K🤗 HuggingFace

注:HuggingFace上的DeepSeek-V3模型总大小为685B,其中包括671B的主模型权重和14B的多令牌预测(MTP)模块权重。

为确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供多种本地运行模型的方法。 对于希望深入研究的开发人员,我们建议阅读 README_WEIGHTS.md,了解有关主模型权重和多令牌预测(MTP)模块的详细信息。 请注意,社区目前正在积极开发 MTP 支持,我们欢迎您的贡献和反馈。

评估结果

基础模型

标准基准

Benchmark (Metric)# ShotsDeepSeek-V2Qwen2.5 72BLLaMA3.1 405BDeepSeek-V3
Architecture-MoEDenseDenseMoE
# Activated Params-21B72B405B37B
# Total Params-236B72B405B671B
EnglishPile-test (BPB)-0.6060.6380.5420.548
BBH (EM)3-shot78.879.882.987.5
MMLU (Acc.)5-shot78.485.084.487.1
MMLU-Redux (Acc.)5-shot75.683.281.386.2
MMLU-Pro (Acc.)5-shot51.458.352.864.4
DROP (F1)3-shot80.480.686.089.0
ARC-Easy (Acc.)25-shot97.698.498.498.9
ARC-Challenge (Acc.)25-shot92.294.595.395.3
HellaSwag (Acc.)10-shot87.184.889.288.9
PIQA (Acc.)0-shot83.982.685.984.7
WinoGrande (Acc.)5-shot86.382.385.284.9
RACE-Middle (Acc.)5-shot73.168.174.267.1
RACE-High (Acc.)5-shot52.650.356.851.3
TriviaQA (EM)5-shot80.071.982.782.9
NaturalQuestions (EM)5-shot38.633.241.540.0
AGIEval (Acc.)0-shot57.575.860.679.6
CodeHumanEval (Pass@1)0-shot43.353.054.965.2
MBPP (Pass@1)3-shot65.072.668.475.4
LiveCodeBench-Base (Pass@1)3-shot11.612.915.519.4
CRUXEval-I (Acc.)2-shot52.559.158.567.3
CRUXEval-O (Acc.)2-shot49.859.959.969.8
MathGSM8K (EM)8-shot81.688.383.589.3
MATH (EM)4-shot43.454.449.061.6
MGSM (EM)8-shot63.676.269.979.8
CMath (EM)3-shot78.784.577.390.7
ChineseCLUEWSC (EM)5-shot82.082.583.082.7
C-Eval (Acc.)5-shot81.489.272.590.1
CMMLU (Acc.)5-shot84.089.573.788.8
CMRC (EM)1-shot77.475.876.076.3
C3 (Acc.)0-shot77.476.779.778.6
CCPM (Acc.)0-shot93.088.578.692.0
MultilingualMMMLU-non-English (Acc.)5-shot64.074.873.879.4

注:最佳成绩以粗体显示。 差距不超过 0.3 的分数被视为处于同一水平。 DeepSeek-V3 在大多数基准测试中表现最佳,尤其是在数学和代码任务中。 更多评估详情,请查阅我们的论文。

上下文窗口

在这里插入图片描述
在 “大海捞针”(Needle In A Haystack,NIAH)测试中的评估结果。 DeepSeek-V3 在最大 128K 的所有上下文窗口长度上都表现出色。

聊天模式

标准基准(型号大于 67B)

Benchmark (Metric)DeepSeek V2-0506DeepSeek V2.5-0905Qwen2.5 72B-Inst.Llama3.1 405B-Inst.Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3
ArchitectureMoEMoEDenseDense--MoE
# Activated Params21B21B72B405B--37B
# Total Params236B236B72B405B--671B
EnglishMMLU (EM)78.280.685.388.688.387.288.5
MMLU-Redux (EM)77.980.385.686.288.988.089.1
MMLU-Pro (EM)58.566.271.673.378.072.675.9
DROP (3-shot F1)83.087.876.788.788.383.791.6
IF-Eval (Prompt Strict)57.780.684.186.086.584.386.1
GPQA-Diamond (Pass@1)35.341.349.051.165.049.959.1
SimpleQA (Correct)9.010.29.117.128.438.224.9
FRAMES (Acc.)66.965.469.870.072.580.573.3
LongBench v2 (Acc.)31.635.439.436.141.048.148.7
CodeHumanEval-Mul (Pass@1)69.377.477.377.281.780.582.6
LiveCodeBench (Pass@1-COT)18.829.231.128.436.333.440.5
LiveCodeBench (Pass@1)20.328.428.730.132.834.237.6
Codeforces (Percentile)17.535.624.825.320.323.651.6
SWE Verified (Resolved)-22.623.824.550.838.842.0
Aider-Edit (Acc.)60.371.665.463.984.272.979.7
Aider-Polyglot (Acc.)-18.27.65.845.316.049.6
MathAIME 2024 (Pass@1)4.616.723.323.316.09.339.2
MATH-500 (EM)56.374.780.073.878.374.690.2
CNMO 2024 (Pass@1)2.810.815.96.813.110.843.2
ChineseCLUEWSC (EM)89.990.491.484.785.487.990.9
C-Eval (EM)78.679.586.161.576.776.086.5
C-SimpleQA (Correct)48.554.148.450.451.359.364.8

注:所有模型均在将输出长度限制为 8K 的配置下进行评估。 包含少于 1000 个样本的基准测试使用不同的温度设置进行了多次测试,以得出稳健的最终结果。 DeepSeek-V3 是性能最好的开源模型,与前沿的闭源模型相比也表现出了很强的竞争力。

开放式世代评估

ModelArena-HardAlpacaEval 2.0
DeepSeek-V2.5-090576.250.5
Qwen2.5-72B-Instruct81.249.1
LLaMA-3.1 405B69.340.5
GPT-4o-051380.451.1
Claude-Sonnet-3.5-102285.252.0
DeepSeek-V385.570.0

注:英语开放式对话评价。 在 AlpacaEval 2.0 中,我们使用长度控制胜率作为衡量标准。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值