DeepSeek技术架构学习

潇锐killer

已于 2025-02-28 15:58:27 修改

阅读量292

点赞数 2

文章标签：学习人工智能

于 2025-02-28 11:36:35 首次发布

本文链接：https://blog.csdn.net/wangqiaowq/article/details/145924349

版权

DeepSeek技术架构学习

参考：国产大模型之光-DeepSeek-v3技术报告解读

DeepSeek-V3技术报告（中文版） - 道客巴巴

DeepSeek-V3 是一款性能卓越的混合专家（MoE） 语言模型，整体参数规模达到 671B，其中每个 token 激活的参数量为 37B。

模型检查点已开放获取，地址为：

https://github.com/deepseek-ai/DeepSeek-V3

基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeek-V3 采用了MLA来确保推理效率，并使用 DeepSeekMoE来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。

研究团队还引入了两项创新策略来进一步提升模型性能。
DeepSeek-V3 首创了无辅助损失的负载均衡策略，有效降低了负载均衡对模型性能的负面影响。
DeepSeek-V3 采用了多 token 预测训练目标，这种方法在评估基准测试中展现出了显著的性能提升。
为了提高训练效率，该研究采用了FP8 混合精度训练技术并对训练框架进行了全面优化。低精度训练作为一种高效的训练方案，其发展与硬件性能的提升密切相关。本研究首次在超大规模模型上成功验证了 FP8 混合精度训练框架的有效性。通过采用 FP8 计算和存储技术，显著提升了训练速度并降低了 GPU 内存占用。

在训练框架方面，研究团队开发的 DualPipe 算法实现了高效的流水线并行处理，减少了流水线停滞，并通过计算和通信并行处理的方式降低了训练过程中的通信开销。这种优化确保了即使在模型规模进一步扩大的情况下，只要维持适当的计算通信比例，就能在不同节点间实现细粒度专家分配，同时将全节点间的通信开销降至接近于零。

优化了跨节点的全节点通信内核，充分利用了 InfiniBand(IB) 和 NVLink 的带宽性能。通过精细的内存优化，使得 DeepSeek-V3 的训练无需依赖成本高昂的张量并行技术。

在预训练阶段，DeepSeek-V3 使用了 14.8T 高质量且多样化的 token 进行训练。

模型进行了两个阶段的上下文长度扩展：第一阶段将最大上下文长度提升至 32K，第二阶段进一步扩展至 128K。

接着，研究团队对 DeepSeek-V3 基础模型进行了后训练，包括 SFT 和 RL，以增强模型对人类偏好的理解并进一步提升其性能。

在后训练阶段，通过从 DeepSeek R1 系列模型中提取推理能力，同时精确控制模型的输出质量和长度比例。
DeepSeek-V3 实现了极具竞争力的训练成本（详见表1），这得益于在算法、框架和硬件层面的整体优化设计。

本研究的主要创新点包括：

架构创新

在 DeepSeek-V2 高效架构的基础上，创新性地提出了无辅助损失的负载均衡策略，有效降低了负载均衡过程对模型性能的影响。

开发并验证了多 token 预测(MTP)训练目标，证实了其对模型性能的提升作用，该技术还可用于推测解码来加速推理过程。

高效预训练

开发了 FP8 混合精度训练框架，首次在超大规模模型上验证了 FP8 训练的可行性和效果。

通过算法、框架和硬件的综合优化，突破了跨节点 MoE 训练中的通信瓶颈，实现了计算与通信的高度重叠。这种优化大幅提升了训练效率，降低了训练成本，同时支持了更大规模模型的训练而无需额外开销。

仅用 2.664M H800 GPU 小时就完成了 DeepSeek-V3 在 14.8T token 上的预训练，打造出当前最强大的开源基础模型。预训练后的其他训练阶段仅需 0.1M GPU 小时。

后训练——DeepSeek-R1 知识蒸馏

提出了一种创新的知识蒸馏方法，将思维链 (CoT) 模型（特别是 DeepSeek R1 系列）的推理能力转移到标准 LLM 中，尤其是 DeepSeek-V3。这一方法成功地将 R1 的验证和反思机制整合到 DeepSeek-V3 中，显著提升了其推理能力，同时有效控制了输出的风格和长度。

架构

DeepSeek-V3 的基本架构具有两个核心特征：

1.采用 MLA 实现高效推理

2.使用 DeepSeekMoE 实现经济高效的训练。

该研究还开发了MTP训练目标，这一创新在评估基准测试中展现出显著的性能提升。

基本架构

DeepSeek-V3 的基础架构建立在 Transformer 框架之上。模型采用了经 DeepSeek-V2 验证的 MLA 和 DeepSeekMoE 技术。相比 DeepSeek-V2，本研究在 DeepSeekMoE 中创新性地引入了无辅助损失负载均衡策略，有效降低了负载均衡过程对模型性能的影响。
图2展示了 DeepSeek-V3 的基本架构，本节将简要介绍 MLA 和 DeepSeekMoE 的技术细节。

图2：DeepSeek-V3 基本架构示意图。基于 DeepSeek-V2，团队采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，以实现高效推理和经济的训练。

多头潜在注意力机制
DeepSeek-V3 在注意力机制方面采用了 MLA 架构。

旋转位置编码(Rotary Positional Embedding, RoPE)

DeepSeekMoE 及其无辅助损失负载均衡机制

DeepSeekMoE的基础架构：在前馈网络(Feed-Forward Networks, FFN) 部分，DeepSeek-V3 采用了 DeepSeekMoE 架构。相比传统的 MoE 架构（如 GShard），DeepSeekMoE 采用了更细粒度的专家分配机制，并创新性地将部分专家设置为共享专家。

无辅助损失负载均衡：对于 MoE 模型，不平衡的专家负载将导致路由崩溃，并在专家并行场景中降低计算效率。传统解决方案通常依赖辅助损失来避免不平衡负载。然而，过大的辅助损失会损害模型性能。为了在负载平衡和模型性能之间实现更好的权衡，研究团队开创了一种无辅助损失负载均衡策略来确保负载平衡。

通过这种动态调整机制，DeepSeek-V3 在训练过程中实现了专家负载的均衡分布，其性能优于传统仅依靠辅助损失来实现负载均衡的模型。

序列级辅助损失补充机制：虽然 DeepSeek-V3 主要采用无辅助损失策略来实现负载均衡，但为了防止单个序列中出现显著的负载不均衡现象，模型还引入了补充性的序列级平衡损失：

节点约束路由机制：类似于 DeepSeek-V2 的设备限制路由策略，DeepSeek-V3 采用了受控路由机制来优化训练过程中的通信开销。具体而言，系统限制每个 token 最多只能分配给 M 个计算节点，这些节点的选择基于每个节点上专家的最高相关度分数总和。

在这种约束下，MoE 训练框架能够实现计算与通信的近乎完全并行处理。

完整的 Token 保留机制：得益于高效的负载均衡策略，DeepSeek-V3 在整个训练过程中都保持着良好的负载平衡状态。因此，训练过程中不存在 token 丢弃现象。同时，通过特定的推理部署策略，DeepSeek-V3 在推理阶段同样实现了完整的 token 保留。

多 token 预测机制 (Multi-Token Prediction, MTP)

DeepSeek-V3 创新性地采用了 MTP 目标，将预测范围扩展到每个位置的多个后续 token。

首先，MTP 目标通过增加训练信号的密度可能提高数据利用效率；其次，它使模型能够提前规划表征，从而更准确地预测后续 token。
前者使用独立输出头并行预测D个额外 token，而 DeepSeek-V3 采用顺序预测方式，并在每个预测层级保持完整的因果关系链。

多令牌预测

推理阶段的MTP：应用 MTP 机制的主要目的是提升基础模型的性能，因此在实际推理阶段可以不使用 MTP 模块，基础模型能够独立完成正常推理。此外，这些 MTP 模块也可以被重新配置用于推测解码，从而降低模型生成的时间延迟。

基础设施

计算集群架构

DeepSeek-V3 的训练环境是一个配备 2048 个 NVIDIA H800 GPU 的大规模计算集群。

该集群中的每个计算节点包含 8 个 GPU，这些 GPU 通过节点内的 NVLink 和 NVSwitch 实现高速互连。节点之间则采用 InfiniBand (IB) 技术进行高效通信。

训练框架设计

模型训练基于自主研发的 HAI-LLM 框架，这是一个经过优化的高效轻量级训练系统。

DeepSeek-V3 的并行策略包含三个层面：16 路流水线并行(Pipeline Parallelism, PP)、跨 8 个节点的 64 路专家并行(Expert Parallelism, EP)，以及 ZeRO-1 数据并行(Data Parallelism, DP)。

该框架进行了多方面的工程优化：

1.开发了DualPipe 流水线并行算法，相比现有 PP 方法，该算法显著减少了流水线停滞现象。更重要的是，它实现了前向和后向过程中计算与通信阶段的重叠，有效解决了跨节点专家并行带来的通信负载问题。

2.优化了跨节点全对全通信内核，充分利用 IB 和 NVLink 带宽，同时减少了通信所需的流式多处理器(SMs)资源占用。

3.通过精细的内存管理优化，使得模型训练无需依赖开销较大的张量并行(Tensor Parallelism, TP)技术。

DualPipe 技术与计算通信协同优化

在 DeepSeek-V3 中，跨节点专家并行机制引入了显著的通信开销，导致计算与通信比例接近1:1，影响了训练效率。

为解决这一问题，模型采用了创新性的 DualPipe 流水线并行算法。该算法通过两个关键优化实现性能提升：有效融合前向和后向计算的通信阶段，同时减少流水线阻塞。

DualPipe 的核心创新在于实现了单个前向和后向计算块内的计算通信重叠。具体来说，每个计算块被划分为四个功能模块：

• 注意力机制 attention
• 全节点数据分发 all-to-all
• MLP 处理 MLP
• 全节点数据整合 all-to-all combine

在后向计算块中，注意力和 MLP 模块都被进一步细分为输入梯度计算和权重梯度计算两个部分，这一设计借鉴了 ZeroBubble 的思路。此外，还包含专门的 PP 通信模块。

完整的 DualPipe 调度机制如图5所示。它采用创新的双向流水线调度策略，实现了从流水线两端同时输入微批次数据，使得大部分通信过程能够与计算过程完全重叠。这种设计确保了即使在模型规模进一步扩大的情况下，只要维持适当的计算通信比例，就能在节点间实现细粒度的专家分配，同时将全节点通信开销降至接近于零。

DualPipe 的一个重要特性是，随着微批次数量的增加，其流水线阻塞和激活内存占用都不会相应增加。

跨节点all-to-all通信的高效实现

为了确保 DualPipe 具有充足的计算性能，系统采用了定制化的高效跨节点全对全通信内核（包括分发和组合功能），以节省用于通信的 SMs 数量。

这些内核的实现与 MoE 门控算法和集群的网络拓扑结构进行了协同设计。具体而言，在该集群中，跨节点 GPU 通过 IB 实现全连接，节点内通信则通过 NVLink 处理。NVLink 提供 160GB/s 的带宽，约为 IB（50GB/s）的 3.2 倍。为了有效利用 IB 和 NVLink 的不同带宽特性，系统限制每个 token 最多分发到 4 个节点，从而减少 IB 流量。对于每个 token，当确定其路由决策后，首先通过 IB 传输到目标节点上具有相同节点内索引的 GPU。一旦到达目标节点，系统确保其通过 NVLink 即时转发到承载目标专家的特定 GPU，避免被后续到达的 token 阻塞。

通过这种方式，IB 和 NVLink 的通信实现完全重叠，每个 token 能够在不产生 NVLink 额外开销的情况下，在每个节点上平均高效选择 3.2 个专家。这意味着，虽然 DeepSeek-V3 实际只选择 8 个路由专家，但它可以将这个数字扩展到最多 13 个专家（4 个节点 × 3.2 个专家/节点），同时保持相同的通信成本。

总体而言，在这种通信策略下，仅需 20 个 SMs 就足以充分利用 IB 和 NVLink 的带宽。具体而言，系统采用了线程专门化技术，将 20 个 SMs 划分为 10 个通信信道。

在分发过程中，(1)IB 发送、(2) IB 到 NVLink 转发和(3) NVLink 接收由各自的线程组处理。分配给每个通信任务的线程组数量根据所有 SMs 的实际工作负载动态调整。

类似地，在组合过程中，(1) NVLink 发送、(2) NVLink 到 IB 转发和累积，以及(3) IB 接收和累积也由动态调整的线程组处理。此外，分发和组合内核与计算流重叠，因此还考虑了它们对其他 SM 计算内核的影响。具体而言，系统采用了定制的 PTX 指令并自动调整通信块大小，这显著降低了 L2 缓存的使用和对其他 SMs 的干扰。

极致的内存节省与最小开销

为了减少训练期间的内存占用，系统采用了以下技术：

RMSNorm 和 MLA 上投影的重计算。在反向传播期间重新计算所有 RMSNorm 操作和 MLA 上投影，从而避免了持久存储其输出激活的需求。这种策略虽带来少量开销，但显著减少了存储激活所需的内存。

CPU 中的指数移动平均(EMA)。在训练期间，系统在 CPU 内存中保留模型参数的EMA，用于学习率衰减后对模型性能的早期估计。EMA 参数存储在 CPU 内存中，并在每个训练步骤后异步更新。这种方法使维护 EMA 参数不会产生额外的内存或时间开销。

MTP的共享向量和输出头。采用 DualPipe 策略，将模型的最浅层（包括向量层）和最深层（包括输出头）部署在相同的PP等级上。这种安排使 MTP 模块和主模型之间能够物理共享参数和梯度，实现共享向量和输出头。这种物理共享机制进一步提高了内存使用效率。

FP8 训练

基于低精度训练领域的最新进展，本研究开发了一种细粒度混合精度框架，采用 FP8 数据格式训练 DeepSeek-V3。

尽管低精度训练技术展现出巨大潜力，但其实际应用常受到激活值、权重和梯度中异常值的制约。虽然推理量化技术取得重要突破，但在大规模语言模型预训练中成功应用低精度技术的案例仍然有限。

为了应对这一挑战并有效扩展 FP8 格式的动态范围，本研究采用了细粒度量化策略：分块分组或按块分组。

通过提高精度累积过程，大幅降低了反量化带来的计算开销，这对实现高精度 FP8 通用矩阵乘法(GEMM)至关重要。此外，为降低 MoE 训练中的内存和通信开销，系统采用 FP8 格式进行激活值的缓存和分发，同时使用 BF16 格式存储低精度优化器状态。
与 BF16 基准相比，FP8 训练模型的相对损失误差始终保持在 0.25% 以下，这完全在训练随机性的可接受范围内。

混合精度框架

本研究在已有低精度训练技术的基础上，设计了专门的 FP8 训练混合精度框架。在这一框架中，大部分计算密集型操作采用 FP8 执行，而关键操作则保持原有数据格式，以实现训练效率和数值稳定性的最优平衡。

首先，为提高模型训练速度，大部分核心计算操作（尤其是 GEMM 运算），均采用 FP8 精度实现。这些 GEMM 运算接收 FP8 格式的张量输入，输出 BF16 或 FP32 格式的结果。如图6所示，线性运算相关的三个 GEMM 操作，包括 Fprop（前向传播）、Dgrad（激活值反向传播）和 Wgrad（权重反向传播），均采用 FP8 执行。这种设计策略理论上将计算速度提升至原有 BF16 方法的两倍。同时，FP8 格式的 Wgrad GEMM 使得激活值能够以 FP8 格式存储用于反向传播，显著降低了内存使用量。

虽然 FP8 格式在效率方面具有优势，但某些运算由于对计算精度较为敏感，仍需要更高精度的支持。另外，部分计算开销较小的运算可以采用更高精度而不会显著影响整体训练效率。

因此，经过详细评估，系统对以下模块保持原有精度（BF16 或 FP32）：向量层、输出层、MoE 门控模块、标准化运算和注意力运算模块。这种针对性的高精度保留策略确保了 DeepSeek-V3 训练过程的动态稳定性。为进一步保障数值计算的稳定性，主要权重参数、权重梯度和优化器状态均采用更高精度存储。虽然这些高精度组件会带来一定的内存开销，但通过在分布式训练系统中跨多个 DP 层级进行高效数据分割，这些额外开销得到了有效控制。

量化和乘法精度优化

基于混合精度 FP8 框架，研究团队开发了多种策略来提升低精度训练的准确性，主要从量化方法和乘法计算两个方面进行优化。

细粒度量化技术：在低精度训练框架中，由于 FP8 格式的指数位较少导致其动态范围受限，经常出现数值溢出和下溢的问题。传统方法是将输入张量的最大绝对值映射到 FP8 格式的最大可表示值，将输入分布对齐到可表示范围内。然而，这种方法使得低精度训练对激活值中的极端值特别敏感，可能导致量化精度显著下降。

为解决这一问题，该研究提出了一种更细粒度的量化方法。如图7(a)所示，该方法采用两种不同的分组策略：

1.激活值采用 1x128 条状分组和缩放（每个 token 的每 128 个通道）

2.权重采用 128x128 块状分组和缩放（每 128 个输入通道对应 128 个输出通道）

这种方法通过在更小范围内调整缩放因子，显著提高了量化过程对极端值的适应能力。原文附录B.2 中详细分析了在块状基础上对激活值进行分组和缩放时可能出现的训练不稳定现象。

该方法的一项重要创新是在 GEMM 操作的内部维度引入组级缩放因子。虽然标准 FP8 GEMM 不直接支持这一功能，但通过与精确 FP32 累积策略的结合，实现了高效的执行。值得注意的是，这种细粒度量化策略与微缩放格式的理念高度契合，而 NVIDIA 新一代 GPU（Blackwell 系列）的 Tensor Cores 已宣布将支持更细粒度的微缩放格式。这一设计为适配最新 GPU 架构的未来研究提供了重要参考。

累积精度优化：低精度 GEMM 运算常见的下溢问题主要通过高精度累积来解决，通常采用 FP32 精度。然而，在 NVIDIA H800 GPU 上，FP8 GEMM 的累积精度仅能保持约 14 位有效数字，远低于 FP32 的累积精度。这个问题在内部维度K较大时尤为显著，这正是大规模模型训练中的常见情况，因为批量规模和模型宽度都有所增加。例如，在的两个随机矩阵 GEMM 运算测试中，Tensor Cores 的有限累积精度导致最大相对误差接近 2%。尽管存在这些问题，部分 FP8 框架仍将有限累积精度作为默认选项，这严重制约了训练精度的提升。

为解决这一问题，系统采用了 CUDA Cores 提升策略来获得更高的计算精度。如图7(b)所示，在 Tensor Cores 执行 MMA（矩阵乘法累加） 时，中间结果先使用有限位宽累加。当达到间隔时，这些部分结果会转移到 CUDA Cores 的 FP32 寄存器中进行全精度累加。结合细粒度量化在内部维度 K 上的组级缩放因子，系统能够在 CUDA Cores 上高效完成反量化过程，仅带来极少的额外计算开销。

这种设计虽然降低了单个线程组的 WGMMA 指令发出率，但在 H800 架构上通过并发执行两个 WGMMA 得到了优化：一个线程组执行提升操作的同时，另一个可以执行 MMA 操作。这种重叠执行机制保证了 Tensor Cores 的高效利用。实验证明，将设为 128 个元素（即 4 个 WGMMA）是在不引入显著开销的前提下，能够有效提升精度的最小累积间隔。

未完待续。。。。