【深度学习】DeepSeek模型介绍与部署

置顶

Nerous_

已于 2025-02-01 12:28:14 修改

阅读量9.1k

点赞数 22

分类专栏：深度学习文章标签：深度学习人工智能

于 2025-02-01 12:25:27 首次发布

本文链接：https://blog.csdn.net/DawnAurora_/article/details/145411497

版权

原文链接：DeepSeek-V3

1. 介绍

DeepSeek-V3，一个强大的混合专家 (MoE) 语言模型，拥有 671B 总参数，其中每个 token 激活 37B 参数。
为了实现高效推理和成本效益的训练，DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了充分验证。
此外，DeepSeek-V3 首次提出了无辅助损失的负载平衡策略，并设置了多 token 预测训练目标，以增强性能。
我们在 14.8 万亿多样且高质量的 token 上预训练了 DeepSeek-V3，之后进行了监督微调和强化学习阶段，以充分发挥其能力。
全面评估表明，DeepSeek-V3 超越了其他开源模型，并且在性能上与领先的闭源模型相当。
尽管性能卓越，DeepSeek-V3 的完整训练仅需要 2.788M H800 GPU 小时。
此外，其训练过程非常稳定。在整个训练过程中，我们没有遇到任何无法恢复的损失峰值，也没有执行任何回滚操作。

2. 模型总结

架构：创新的负载平衡策略与训练目标

在 DeepSeek-V2 高效架构的基础上，我们首次提出了一种无辅助损失的负载平衡策略，最小化了由于负载平衡而导致的性能下降。
我们研究了多 token 预测（MTP）目标，并证明它对模型性能有益。
它还可用于推理加速的推测解码。

预训练：追求极致的训练效率

我们设计了一个 FP8 混合精度训练框架，并首次验证了在极大规模模型上使用 FP8 训练的可行性和有效性。
通过算法、框架和硬件的共同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，几乎实现了计算与通信的完全重叠。
这大大提高了我们的训练效率，并减少了训练成本，使我们能够在不增加额外开销的情况下进一步扩展模型规模。
在仅需 2.664M H800 GPU 小时的经济成本下，我们完成了 DeepSeek-V3 在 14.8T tokens 上的预训练，生产出当前最强大的开源基础模型。预训练后的后续训练阶段仅需 0.1M GPU 小时。

后训练：从 DeepSeek-R1 中蒸馏知识

我们引入了一种创新的方法，从长链思维（CoT）模型中提取推理能力，特别是从 DeepSeek R1 系列模型中，将其蒸馏到标准 LLM，特别是 DeepSeek-V3。我们的流程巧妙地将 R1 的验证和反思模式整合到 DeepSeek-V3 中，显著提高了其推理能力。同时，我们也控制了 DeepSeek-V3 输出的风格和长度。

3. 模型下载

模型	总参数	激活参数	上下文长度	下载
DeepSeek-V3-Base	671B	37B	128K	🤗 Hugging Face
DeepSeek-V3	671B	37B	128K	🤗 Hugging Face

[!NOTE]
DeepSeek-V3 模型在 Hugging Face 上的总大小为 685B，其中包含 671B 的主模型权重和 14B 的多 token 预测（MTP）模块权重。

为了确保最佳的性能和灵活性，我们与开源社区和硬件供应商合作，提供了多种方式以在本地运行模型。有关详细的步骤，请参阅第 6 节：如何在本地运行。

对于希望深入了解的开发者，我们建议查看 README_WEIGHTS.md，了解有关主模型权重和多 token 预测（MTP）模块的更多细节。请注意，MTP 支持目前仍在社区开发中，我们欢迎您的贡献和反馈。

4. 评估结果

基础模型

标准基准测试

	基准（指标）	样本数量	DeepSeek-V2	Qwen2.5 72B	LLaMA3.1 405B	DeepSeek-V3
	架构	-	MoE	Dense	Dense	MoE
	激活参数	-	21B	72B	405B	37B
	总参数	-	236B	72B	405B	671B
英文	Pile-test (BPB)	-	0.606	0.638	0.542	0.548
	BBH (EM)	3-shot	78.8	79.8	82.9	87.5
	MMLU (Acc.)	5-shot	78.4	85.0	84.4	87.1
	MMLU-Redux (Acc.)	5-shot	75.6	83.2	81.3	86.2
	MMLU-Pro (Acc.)	5-shot	51.4	58.3	52.8	64.4
	DROP (F1)	3-shot	80.4	80.6	86.0	89.0
	ARC-Easy (Acc.)	25-shot	97.6	98.4	98.4	98.9
	ARC-Challenge (Acc.)	25-shot	92.2	94.5	95.3	95.3
	HellaSwag (Acc.)	10-shot	87.1	84.8	89.2	88.9

最低0.47元/天解锁文章