【深度学习】DeepSeek模型介绍与部署

原文链接:DeepSeek-V3

1. 介绍

DeepSeek-V3,一个强大的混合专家 (MoE) 语言模型,拥有 671B 总参数,其中每个 token 激活 37B 参数。
为了实现高效推理和成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。
此外,DeepSeek-V3 首次提出了无辅助损失的负载平衡策略,并设置了多 token 预测训练目标,以增强性能。
我们在 14.8 万亿多样且高质量的 token 上预训练了 DeepSeek-V3,之后进行了监督微调和强化学习阶段,以充分发挥其能力。
全面评估表明,DeepSeek-V3 超越了其他开源模型,并且在性能上与领先的闭源模型相当。
尽管性能卓越,DeepSeek-V3 的完整训练仅需要 2.788M H800 GPU 小时。
此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何无法恢复的损失峰值,也没有执行任何回滚操作。

2. 模型总结


架构:创新的负载平衡策略与训练目标

  • 在 DeepSeek-V2 高效架构的基础上,我们首次提出了一种无辅助损失的负载平衡策略,最小化了由于负载平衡而导致的性能下降。
  • 我们研究了多 token 预测(MTP)目标,并证明它对模型性能有益。
    它还可用于推理加速的推测解码。

预训练:追求极致的训练效率

  • 我们设计了一个 FP8 混合精度训练框架,并首次验证了在极大规模模型上使用 FP8 训练的可行性和有效性。
  • 通过算法、框架和硬件的共同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了计算与通信的完全重叠。
    这大大提高了我们的训练效率,并减少了训练成本,使我们能够在不增加额外开销的情况下进一步扩展模型规模。
  • 在仅需 2.664M H800 GPU 小时的经济成本下,我们完成了 DeepSeek-V3 在 14.8T tokens 上的预训练,生产出当前最强大的开源基础模型。预训练后的后续训练阶段仅需 0.1M GPU 小时。

后训练:从 DeepSeek-R1 中蒸馏知识

  • 我们引入了一种创新的方法,从长链思维(CoT)模型中提取推理能力,特别是从 DeepSeek R1 系列模型中,将其蒸馏到标准 LLM,特别是 DeepSeek-V3。我们的流程巧妙地将 R1 的验证和反思模式整合到 DeepSeek-V3 中,显著提高了其推理能力。同时,我们也控制了 DeepSeek-V3 输出的风格和长度。

3. 模型下载

模型 总参数 激活参数 上下文长度 下载
DeepSeek-V3-Base 671B 37B 128K 🤗 Hugging Face
DeepSeek-V3 671B 37B 128K 🤗 Hugging Face

[!NOTE]
DeepSeek-V3 模型在 Hugging Face 上的总大小为 685B,其中包含 671B 的主模型权重和 14B 的多 token 预测(MTP)模块权重。

为了确保最佳的性能和灵活性,我们与开源社区和硬件供应商合作,提供了多种方式以在本地运行模型。有关详细的步骤,请参阅第 6 节:如何在本地运行

对于希望深入了解的开发者,我们建议查看 README_WEIGHTS.md,了解有关主模型权重和多 token 预测(MTP)模块的更多细节。请注意,MTP 支持目前仍在社区开发中,我们欢迎您的贡献和反馈。

4. 评估结果

基础模型

标准基准测试
基准(指标) 样本数量 DeepSeek-V2 Qwen2.5 72B LLaMA3.1 405B DeepSeek-V3
架构 - MoE Dense Dense MoE
激活参数 - 21B 72B 405B 37B
总参数 - 236B 72B 405B 671B
英文 Pile-test (BPB) - 0.606 0.638 0.542 0.548
BBH (EM) 3-shot 78.8 79.8 82.9 87.5
MMLU (Acc.) 5-shot 78.4 85.0 84.4 87.1
MMLU-Redux (Acc.) 5-shot 75.6 83.2 81.3 86.2
MMLU-Pro (Acc.) 5-shot 51.4 58.3 52.8 64.4
DROP (F1) 3-shot 80.4 80.6 86.0 89.0
ARC-Easy (Acc.) 25-shot 97.6 98.4 98.4 98.9
ARC-Challenge (Acc.) 25-shot 92.2 94.5 95.3 95.3
HellaSwag (Acc.) 10-shot 87.1 84.8 89.2 88.9
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值