前段时间的DeepSeek开源周连续放大招,可谓诚意满满——首个用于MoE模型训练和推理的开源EP通信库DeepEP,高效矩阵运算库DeepGEMM,双向流水线并行算法DualPipe,高性能并行文件系统3FS。
伴随着这些开源技术公开的,还有一个震惊AI圈的DeepSeek理论成本利润率——545%!当各家大模型还在做亏本买卖的时候,DeepSeek如何找到了什么盈利的秘方?
EP:DeepSeek高理论成本利润率杀手锏
在与多位业内人士的交流中,我们发现影响545%理论成本利润率的变量有很多,但专家并行(Expert Parallelism,简称EP)技术应该是其中最关键的那个变量。
如果DeepSeek跑在单机上,也就不需要那么多专家甚至EP了。问题是随着用户走过DeepSeek尝鲜期,现在逐渐要真正把DeepSeek用到业务里面时发现,在很多情况下,单机已经满足不了业务的胃口,需要上了规模的机器也就是通常所说的“集群”来部署。因此,EP是与大规模、跨节点如影随形、天生一对,大规模跨节点专家并行才是EP的完整名字,可以用“大EP”来作为昵称。
而所谓大EP,就是将专家Expert分布到更多的卡上,可以减少每张卡权重加载的时延,减少权重的显存占用,从而提升单卡并行的路数(batch size)。每个专家计算路数的提升可以提高矩阵乘的效率,从而实现更大的吞吐和更低的时延。
大EP,DeepSeek已经做到了。下一个,会是谁?
率先复现DeepSeek大EP的竟然是它?
这个答案是昇腾。
作为DeepSeek的算力供应商,昇腾是业界唯一一个能够全面支持DeepSeek从预训练到微调全流程的AI训练推理平台,不仅成本可控,支持本地部署,并且拥有与DeepSeek相似的技术路线,可谓具备天然的优势。
其中,在推理能力方面,针对DeepSeek小专家创新架构带来的通信耗时及专家负载不均等挑战,昇腾依托多年的压箱底储备而打造的昇腾大EP推理方案,可以实现多专家负载均衡和极致通信优化,达到更高性能,单卡性能提升到3倍。
具体来看,昇腾主要攻克了五大关键技术。
- MoE负载均衡:通过自动寻优、自动配比、自动预测、自动降解,实现备份节点和副本专家灵活可扩展、高可用和极致均衡。
- PD分离部署:多种创新技术,提升系统有效吞吐50%,传统部署方案PD同节点部署,计算访存资源竞争,业界PD静态分离方案,提升系统资源利用率,但不够灵活,无法适应动态调整的场景,华为创新的autoPD分离部署方案,自动感知负载变化,无需人工介入,自动伸缩P、D实例,结合多级缓存内存资源池化,提升系统有效吞吐50%+。
- 双流/多维混合并行:平均性能提升30%,Prefill micro-batch双流并行。Prefill阶段,拆分Batch成两组更细粒度的Batch,实现计算和通信相互掩盖;MoE expert专家双流并行,共享专家和路由专家计算独立,利用Cube和Vector计算单元,实现两条Stream并行计算;Weight预取双流并行,利用L2 Cache大容量,通信和权重加载采用两条Stream并行,降低权重加载时间,提升matmul算子性能。
- MLAPO融合算子:降低计算耗时70%,MLA预处理阶段,传统方案多算子串行,频繁占用内存、通信等资源,整体计算耗时占比高;昇腾MLAPO融合算子,将小算子融合成单一算子,Vector和Cube计算并行处理,减少开销降低计算耗时。
- 支持MTP并优化,自研DraftDecoding解码算法,提升推理效率与性能。
方案+性能+生态:加速大模型技术和应用创新落地的“最优解”
昇腾之所以是业界唯一一个能够全面支持DeepSeek从预训练到微调全流程、首个复现DeepSeek大EP的AI训练推理平台,并非偶然,而是源自三宗“最”。
- 方案最全:昇腾提供全流程覆盖的方案,并且在业界首个复现DeepSeek R1强化学习的流程,并沉淀到套件,使能客户快速完成训练。
- 性能最优:昇腾有自己的硬件和软件,能够做到协同亲和MoE架构,像MTP、MLA、大EP,这些技术和昇腾的技术架构是亲和的,能够充分利用底层资源,释放极致性能。同时,昇腾也是国内唯一与DeepSeek深度适配并实现“Day0”发布的团队。
- 生态最好:昇腾软件开源开放,兼容业界主流框架和推理引擎,比如华为是PyTorch白金会员,而MindSpore昇思是华为自己的深度学习的框架;在推理方面,自研的MindIE引擎,支持vLLM,可以让用户能够高效自主训练。同时,目前有100+合作伙伴基于昇腾打造DeepSeek方案、25+人工智能创新中心也已全部上线,覆盖各行业场景需求。
“独行者疾,众行者远”,坚持开源开放和根技术创新、走在支撑大模型发展最前线的昇腾AI,正在成为加速大模型技术和应用创新落地的“最优解”。