万万没想到,率先复现DeepSeek大EP推理的竟然是它

前段时间的DeepSeek开源周连续放大招,可谓诚意满满——首个用于MoE模型训练和推理的开源EP通信库‌DeepEP‌,高效矩阵运算库‌DeepGEMM,双向流水线并行算法DualPipe,高性能并行文件系统‌3FS。

伴随着这些开源技术公开的,还有一个震惊AI圈的DeepSeek理论成本利润率——545%!当各家大模型还在做亏本买卖的时候,DeepSeek如何找到了什么盈利的秘方?

EP:DeepSeek高理论成本利润率杀手锏

在与多位业内人士的交流中,我们发现影响545%理论成本利润率的变量有很多,但专家并行(Expert Parallelism,简称EP)技术应该是其中最关键的那个变量。

如果DeepSeek跑在单机上,也就不需要那么多专家甚至EP了。问题是随着用户走过DeepSeek尝鲜期,现在逐渐要真正把DeepSeek用到业务里面时发现,在很多情况下,单机已经满足不了业务的胃口,需要上了规模的机器也就是通常所说的“集群”来部署。因此,EP是与大规模、跨节点如影随形、天生一对,大规模跨节点专家并行才是EP的完整名字,可以用“大EP”来作为昵称。

而所谓大EP,就是将专家Expert分布到更多的卡上,可以减少每张卡权重加载的时延,减少权重的显存占用,从而提升单卡并行的路数(batch size)。每个专家计算路数的提升可以提高矩阵乘的效率,从而实现更大的吞吐和更低的时延。

大EP,DeepSeek已经做到了。下一个,会是谁?

率先复现DeepSeek大EP的竟然是它?

这个答案是昇腾。

作为DeepSeek的算力供应商,昇腾是业界唯一一个能够全面支持DeepSeek从预训练到微调全流程的AI训练推理平台,不仅成本可控,支持本地部署,并且拥有与DeepSeek相似的技术路线,可谓具备天然的优势。

其中,在推理能力方面,针对DeepSeek小专家创新架构带来的通信耗时及专家负载不均等挑战,昇腾依托多年的压箱底储备而打造的昇腾大EP推理方案,可以实现多专家负载均衡和极致通信优化,达到更高性能,单卡性能提升到3倍。

具体来看,昇腾主要攻克了五大关键技术。

  1. MoE负载均衡:通过自动寻优、自动配比、自动预测、自动降解,实现备份节点和副本专家灵活可扩展、高可用和极致均衡。
  2. PD分离部署:多种创新技术,提升系统有效吞吐50%,传统部署方案PD同节点部署,计算访存资源竞争,业界PD静态分离方案,提升系统资源利用率,但不够灵活,无法适应动态调整的场景,华为创新的autoPD分离部署方案,自动感知负载变化,无需人工介入,自动伸缩P、D实例,结合多级缓存内存资源池化,提升系统有效吞吐50%+。
  3. 双流/多维混合并行:平均性能提升30%,Prefill micro-batch双流并行。Prefill阶段,拆分Batch成两组更细粒度的Batch,实现计算和通信相互掩盖;MoE expert专家双流并行,共享专家和路由专家计算独立,利用Cube和Vector计算单元,实现两条Stream并行计算;Weight预取双流并行,利用L2 Cache大容量,通信和权重加载采用两条Stream并行,降低权重加载时间,提升matmul算子性能。
  4. MLAPO融合算子:降低计算耗时70%,MLA预处理阶段,传统方案多算子串行,频繁占用内存、通信等资源,整体计算耗时占比高;昇腾MLAPO融合算子,将小算子融合成单一算子,Vector和Cube计算并行处理,减少开销降低计算耗时。
  5. 支持MTP并优化,自研DraftDecoding解码算法,提升推理效率与性能。

方案+性能+生态:加速大模型技术和应用创新落地的“最优解”

昇腾之所以是业界唯一一个能够全面支持DeepSeek从预训练到微调全流程、首个复现DeepSeek大EP的AI训练推理平台,并非偶然,而是源自三宗“最”。

  1. 方案最全:昇腾提供全流程覆盖的方案,并且在业界首个复现DeepSeek R1强化学习的流程,并沉淀到套件,使能客户快速完成训练。
  2. 性能最优:昇腾有自己的硬件和软件,能够做到协同亲和MoE架构,像MTP、MLA、大EP,这些技术和昇腾的技术架构是亲和的,能够充分利用底层资源,释放极致性能。同时,昇腾也是国内唯一与DeepSeek深度适配并实现“Day0”发布的团队。
  3. 生态最好:昇腾软件开源开放,兼容业界主流框架和推理引擎,比如华为是PyTorch白金会员,而MindSpore昇思是华为自己的深度学习的框架;在推理方面,自研的MindIE引擎,支持vLLM,可以让用户能够高效自主训练。同时,目前有100+合作伙伴基于昇腾打造DeepSeek方案、25+人工智能创新中心也已全部上线,覆盖各行业场景需求。

“独行者疾,众行者远”,坚持开源开放和根技术创新、走在支撑大模型发展最前线的昇腾AI,正在成为加速大模型技术和应用创新落地的“最优解”。

### 如何复现 DeepSeek 项目安装配置教程 #### 准备工作 为了成功复现 DeepSeek 项目,需先确认环境准备充分。这包括但不限于操作系统的选择、依赖库的版本控制以及必要的硬件资源评估。 #### 获取源码 访问官方指定仓库获取最新版源代码是首要步骤。鉴于 DeepSeek 的开源性质[^2],建议直接从其官方 GitHub 或 Hugging Face 页面下载最新的稳定版本[^4]。 #### 环境搭建 创建独立的工作空间来隔离不同项目的依赖关系至关重要。推荐使用 Python 虚拟环境工具如 `venv` 来管理包依赖: ```bash python3 -m venv deepseek-env source deepseek-env/bin/activate ``` 接着依据文档指引安装所需软件包列表,通常通过执行如下命令完成初始化设置: ```bash pip install --upgrade pip pip install -r requirements.txt ``` 对于特定框架的支持(例如 Unity),可能还需要额外集成对应的 SDK 或 API 接口[^1]。 #### 数据集准备 训练高质量模型离不开充足的数据支撑。按照官方指南准备好相应的数据集,并确保格式符合预期输入标准。部分场景下或许涉及预处理操作以优化性能表现。 #### 模型训练与调试 启动训练脚本之前务必仔细阅读并理解参数选项的意义及其影响范围。利用内置的日志记录功能密切监控进度变化,及时调整超参直至获得满意效果为止。 #### 测试验证 最后一步是对已构建好的系统进行全面的功能性和稳定性测试。收集反馈意见不断迭代改进直至满足实际应用场景需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSDN资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值