人工智能任务23-将DeepSeek-V3的混合专家(MoE)、多头潜在注意力(MLA)、多Token预测(MTP)、FP8训练讲透了

微学AI

已于 2025-04-18 08:28:37 修改

阅读量1.4k

点赞数 16

分类专栏：人工智能任务集合文章标签：人工智能 AI deepseek LLM

于 2025-02-20 15:07:42 首次发布

本文链接：https://blog.csdn.net/weixin_42878111/article/details/145754135

版权

大家好，我是微学AI，今天给大家介绍一下人工智能任务23-将DeepSeek-V3的混合专家(MoE)、多头潜在注意力(MLA)、多Token预测(MTP)、FP8训练讲透了。DeepSeek-V3的混合专家（MoE）模型架构十分独特。混合专家模型架构就像是一个拥有多个不同专业领域专家的团队，每个专家负责处理不同类型的任务，细粒度设计和共享专家策略就是让这些专家能够高效协作，从而实现计算资源的高效利用。在MoE架构里，稀疏激活机制和无损负载均衡策略作用重大。稀疏激活机制类似于一个智能开关系统，只有在需要的时候才开启某些资源，避免资源浪费；无损负载均衡策略保证各部分负载平衡，让训练顺利进行。多头潜在注意力（MLA）机制也不容小觑，它好比给模型训练和推理开辟了“高速通道”，通过减少内存使用、加速推理过程，有效降低了模型训练和推理成本。

文章目录

一、整体架构概述
- （一）基于MoE架构的大型语言模型
- （二）基于Transformer框架构建
二、关键架构组成部分
三、Deepseek训练架构相关特性
- （一）FP8混合精度训练框架
- （二）训练与部署效率的协同优化
四、后训练阶段

一、整体架构概述

（一）基于MoE架构的大型语言模型

DeepSeek - V3是一个基于MoE（混合专家）架构的大型语言模型，其总参数量达到了6710亿，在处理每个token时能够激活370亿参数。与一些传统的单模型架构相比，MoE架构允许模型在不同的任务或数据模式下灵活调用不同的专家子模型，而传统单模型架构相对固定，难以针对多样化任务高效分配计算资源。

（二）基于Transformer框架构建

它构建于Transformer框架基础之上，这样做的目的在于提升模型的性能，并且有效地降低成本。相较于一些其他框架，Transformer框架具有并行计算能力强、能够更好捕捉长序列数据依赖关系等优势，DeepSeek - V3基于Transformer框架构建，引入了混合专家(MoE)、多头潜在注意力(MLA)、多Token预测(MTP)。

二、关键架构组成部分

（一）混合专家（MoE）架构

1. 核心思想
MoE架构的核心思想是把输入数据分配给不同的专家子模型，之后再合并这些子模型的输出从而得到最终结果。这就好比一个大型的工厂，有不同的车间（专家子模型）负责不同的生产环节，原材料（输入数据）进来后，被分配到合适的车间加工，最后将各车间的成品组合起来（合并输出）成为最终产品。与一些简单的模型架构相比，MoE架构能够更精细地处理不同类型的数据，而简单架构可能采用统一方式处理所有数据，难以应对复杂多样的数据特征。
2. 结构