华为破局!最新技术报告揭秘昇腾+DeepSeek如何部署超大规模MoE模型推理!

英伟达最担心的事情可能要发生了,在美国政府限制H20芯片出口中国且新的合规芯片尚未诞生之际,华为正在对国内AI算力市场展开一轮冲锋。

今天,华为技术团队在开源开发者平台GitCode发布了一篇技术报告,介绍了其昇腾超大规模MoE模型推理部署技术,展现了国产算力+大模型的发展潜力。

图片

华为团队在报告中表示,最近一周将分享基于昇腾打造超大规模MoE模型推理部署最佳实践的相关技术,差不多一个月后,这些技术报告相关的代码会陆续开源出来,推动构建昇腾超大规模MoE模型开源生态。

系统性的适配和优化

这篇技术报告主要介绍了在昇腾服务器上部署DeepSeek模型的两种不同部署形态,并列举了一些相关优化技术,使用的机型是CloudMatrix 384超节点和Atlas 800I A2推理服务器。

昇腾NPU芯片是华为旗下的高性能AI处理器,专为大规模AI训练、高性能AI推理等任务设计。

其中,Atlas 800I A2推理服务器一个节点包含8张NPU芯片,形成多机组网架构。

图片

A2单节点内8卡NPU通过Fullmesh形成全互联结构,通信总带宽392GB/s,不同节点间则通过网络交换机进行互联,形成Stars结构,通信总带宽50GB/s,每张Atlas 800I A2昇腾卡的内存大小是64GB。

图片

CloudMatrix 384超节点则是进一步采用多卡紧耦合互联,统一内存编址,统一标识,统一通信等技术实现在算力、互联带宽、内存带宽的方面的的性能提升。

因为DeepSeek模型是在英伟达芯片上训练出来的,为适配昇腾芯片保证推理性能,华为团队采用SmoothQuant技术,对模型进行A8W8动态量化,计算过程的中间变量采用BF16。

大模型推理过程主要分Prefill和Decode两个阶段,Prefill阶段通常是计算瓶颈,而Decode阶段通常是带宽瓶颈和通信瓶颈,华为团队采用了Prefill和Decode分离的方式,在流行的vLLM服务框架基础上进行模型部署。

图片

在Atlas 800I A2的部署上,Decode阶段仅使用32卡进行部署,Prefill阶段仅使用16卡部署,想要实现更高性能则意味着高内存占用,所以具体的部署策略上开发者要特别注意内存的占用。

图片

DeepSeek V3/R1模型共3个稠密层、58个稀疏层以及一个MTP层,每层包括MLA模块和Dense FFN/MoE模块。

关于多头潜在注意力(MLA)的部署,Prefill阶段采用Attention前序计算DP16,Attention TP16,Attention后序计算DP8+TP2的混合部署策略,Decode阶段则采用业界主流的DP32与权重吸收的部署方式。

图片

Dense FFN部署在Prefill阶段采用全DP的部署方式,Decode阶段综合考虑FFN性能和通信耗时,以及权重所需内存,选择采取DP4+TP8的部署策略。

混合专家(MoE)在Prefill和Decode阶段都采用了业界主流的EP并行部署策略,即将256个路由专家平均地部署到所有昇腾卡上。

图片

图片

CloudMatrix 384超节点部署方案在Prefill阶段的部署方案与Atlas 800I A2基本相同,主要差异是在CM384上MoE模块的通信方式为All2All,在Decode阶段,MoE模块的主要性能瓶颈为权重搬运。

但在CM384上,子节点间的互联带宽相比Atlas 800I A2大大提高,这使得大规模的EP部署成为可能。

图片

图片

技术报告提到,华为团队对框架侧性能进行了很多优化,涉及vLLM的一些关键环节,例如支持下发水平扩展,采用请求长度感知与KVCache亲和等高级调度策略,简化系统通讯链路,多核全并行、全异步的高效前后处理,降低NPU闲置率等等,以及在API Server扩展技术、MoE模型负载均衡方面进行了一些技术改良。

同时也对模型侧性进行了通信优化。因为大模型多卡部署时,卡间并行方式包括数据并行(DP)、张量并行(TP)、专家并行(EP)等,不同的卡间并行方式对多卡间通信方式和通信算子有着不同的需求,从而影响模型部署时的通信时延。

此外,昇腾芯片支持多种计算资源如张量计算单元、向量计算单元,以及通信资源的并发使用,这为尽可能发挥硬件的算力和带宽提供了支持。

图片

还有对昇腾算子性能的优化,具体涉及对MLA场景的Attention算子进行计算过程的优化以及硬件亲和的性能优化,实现提升Attention算子性能接近1倍,非MTP场景算力利用率达到55%,使用一个MTP模块场景算力利用率达到60%。

以及对MoE通信算子优化,华为团队提出了两个通算融合算子,SMTurbo-CPP技术以及支持细粒度的分级流水算法等。

测试与评估效果良好

基于Altas 800I A2性能分析显示,Decode性能对于序列长度是2K输入+2K输出的测试情形,每卡平均并发数为72,此时端到端耗时为99.6ms,卡均吞吐为723 Tokens/s。

图片

根据DeepSeek披露的数据,MTP接受率可达80%∼90%,如果按照90%的MTP接受率来估算,2K输入+2K输出的Decode单卡吞吐可达808 Tokens/s。

图片

Prefill性能对于序列长度是2K,共8 batch拼成一共16K序列的测试场景,端到端耗时为631ms,卡均吞吐为1622 Tokens/s,大并发的Prefill阶段采用Micro-batch技术可以得到相当大的吞吐收益,据测算,Altas 800I A2在Prefill阶段可进一步达到卡均3095 Tokens/s的吞吐。

报告中提到,2025年4月,硅基流动联合华为云基于CloudMatrix 384超节点昇腾云服务,采用与本报告完全相同的大规模专家并行方案正式上线DeepSeek-R1,该服务在保证单用户20 TPS(等效50ms时延约束)水平前提下,单卡Decode吞吐突破1920 Tokens/s。

华为团队在技术报告最后表示,当前已经完成了完全在昇腾服务器上部署DeepSeek-V3/R1模型的方案,但后续还有一些工作需要完善,以进一步提升性能和支撑更多场景,例如对低时延场景的极致优化,Micro-batch优化方案,探索针对MoE部分INT4的量化技术,MLA层算子量化支持以及序列负载均衡优化方案等等。

国产算力+大模型打开新局面

根据外界分析和公开数据显示,用英伟达H20 GPU部署DeepSeek模型的单卡实际吞吐量可能在1600-2700 tokens/s范围内,华为可能会率先对H20占据的市场份额进行冲击。

近期,业内也传出华为正在加紧测试其最新、最强大的AI处理器昇腾910D,旨在取代英伟达的部分高端产品。据悉,华为已与一些中国科技公司接洽,商讨测试这款新芯片的技术可行性,预计最早将于5月底推出首批处理器样品,最新版本能与英伟达H100芯片性能比肩乃至超越。

图片

H20芯片受限之后,英伟达CEO黄仁勋曾对外表示,英伟达芯片在中国受限可能会助力提升华为芯片的竞争力。

背后的一个驱动因素在于,中国开源AI大模型目前在世界范围内的影响力日益强大,如果DeepSeek等先进模型可完全在华为芯片上进行训练、部署、推理,或者未来中国开源模型都全面转向与华为芯片进行高度适配优化,可能促使全球市场产生对华为AI芯片的新需求。

日前,DeepSeek团队在一篇新论文里提出硬件架构与模型设计协同创新的重要性和具体路径展望,而今天华为抛出的这篇技术报告则从算力硬件方面对模型的训练和部署优化进行了解读,两者可谓遥相呼应。

面对中国市场,英伟达下一款特供版芯片会是什么性能目前尚未可知,但可以肯定的是,国产AI算力基座+大模型协同创新的大门已经被推开,而且发展势能会越来越强,直至形成自主可控的开发者生态乃至全球影响力,而华为昇腾和DeepSeek模型的深度适配优化或将是这一切的开始。

 一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值