腾讯TRMT助力DeepSeek-MoE模型通信提速30%

     腾讯网平团队基于自研TRMT技术体系,结合在RoCEv2网络协议栈与双端口网卡架构的深度研究,对DeepSeek开源项目DeepEP进行了优化和增强:通过GPU直控RDMA通信消除控制面开销,创新多信道并行传输架构突破带宽瓶颈。最终实现了在RoCEv2网络性能提升100%、IB网络性能提升30%的突破性进展。

      相关成果已反哺开源社区,为MoE生态注入新动能。(https://github.com/deepseek-ai/DeepEP/pull/130)

DeepSeek开源社区Merge记录

     TRMT(Tencent Remote Memory Transport)作为腾讯网平团队打造的GPU中心化通信基座,沉淀三大核心技术特征:1)基于内存语义的计算通信编排体系,支持EP/TP级流水线深度优化。2)完全硬件卸载的控制平面架构,实现纳秒级通信调度。3)智能数据流调度引擎,通过PTX接口实现缓存策略与计算单元的精准协同。这些技术积累为后续优化奠定基础。

     在与南京大学田臣、曹培睿教授团队的合作研究中,腾讯网平团队发现DeepEP开源项目恰能验证TRMT技术体系的创新价值。当在双端口RoCEv2网络场景进行部署验证时,基于对RDMA协议栈的深度理解,腾讯网平团队敏锐发现两大优化契机

1)双端口网卡架构下,原生QP映射策略难以充分发挥多通道带宽潜力。

2)RoCEv2网络环境中,传统CPU代理机制导致通信控制面成为性能瓶颈。

     这些发现恰好源自TRMT技术团队在以GPU为核心的通信和基于RoCEv2的以太网数据中心网络架构领域的深厚积累。

TRMT-DeepEP的优化方案

TRMT-DeepEP设计要点

基于TRMT技术体系对DeepEP进行优化时,聚焦三个核心维度:

1. 拓扑感知的多QP建链

     依托TRMT-SHMEM模块构建的全互联通信架构,通过动态QP端口分配算法实现网络流量的智能散列。该技术突破源于团队在超大规模集群组网实践中积累的拓扑感知经验,通过UDP源端口动态规划技术,使双端口网卡带宽利用率达到理论峰值。

2. IBGDA驱动的多信道并行传输

     将TRMT中长期积累的IBGDA(InfiniBand GPU Direct Accelerator)技术与DeepEP深度整合,实现三个层级创新:

● GPU直控RDMA:消除传统GDR方案的CPU代理开销,控制时延降低至硬件极限

● 动态WQE填充:基于PTX指令集的缓存管理策略,确保QP深度与计算节奏精准匹配

● 多信道负载均衡:通过QP-WQE的矩阵式映射,构建自适应的带宽分配模型

IBGDA和IBRC通信模式对比

3. 原子化信令协同

      NVSHMEM 底层机制使用RDMA Write 直接写入对端GPU内存,接收端无感知,需显式信令协调收发顺序。信令必须在数据传输后完成,否则可能因乱序导致逻辑错误。

      针对多QP场景的信令乱序难题,创新提出"QP内时序锁"机制。通过IBGDA原子操作实现信令与数据的硬件级绑定,该方案继承自TRMT在分布式一致性协议领域的研究成果,在保持零CPU介入的同时确保传输时序正确性。

TRMT-DeepEP的优化成果

      在腾讯星脉网络的实测中,优化后的TRMT-DeepEP展现卓越性能:RoCEv2网络环境下性能较原生实现提升100%,IB网络场景性能提升30%(DeepSeek官方测试数据)。性能提升成果不仅验证了技术方案的有效性,更体现了腾讯网平团队在数据中心网络通信领域的独特技术视角——通过GPU中心化架构重构,释放硬件协同潜力。

TRMT-DeepEP和原生DeepEP性能对比

      腾讯网平团队优化后的TRMT-DeepEP已经在腾讯内部多个模型训练/推理框架集成使用,在星脉网络+H20服务器部署环境中取得非常好的性能表现。

      目前,TRMT技术优化方案已全面融入DeepEP开源社区,相关代码提交获得社区核心开发者高度认可。这一技术融合的案例,既展现了开源协作的生态价值,也印证了腾讯在GPU通信架构领域持续创新的技术路线。

欢迎关注公众号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来自互联网,如涉及相关版权问题,请联系sandyshuang@tencent.com;


关注腾讯开源公众号

获取更多最新腾讯官方开源信息!

加微信进群即可了解更多“腾讯开源新动态”

图片

添加微信请备注:腾讯开源

基于机器学习的音频情感分析系统Python源码(高分项目),能够从语音中识别出四种基本情感:愤怒、快乐、中性和悲伤。个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统Python源码(高分项目)基于机器学习的音频情感分析系统P
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值