谈谈字节的Attention/Expert分离_megascale-moe-CSDN博客

本文链接：https://blog.csdn.net/m0_59164304/article/details/147520558

看到一篇字节的AE分离(Attn/MoE)的文章《MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism》挺有趣的. 但是简单的说字节和NV都还需要技术扶贫….

文章有一个非常简单的叙事, Microbatch, 然后M:N的Attn:MoE配比并配合异构算力来降低成本.

其实本质的问题是, 加大BatchSize后,如果按照DeepEP的方式来看, 显存容量和一些低算力卡(H20)在Attn计算上太慢带来约束, 高算力卡(H800)在小的batchsize下Expert的GroupGEMM计算利用率又太低,显存80GB又比较难拉高batchsize,退而求其次只能选择大规模EP(144/320)并行.

字节的同学提供了一个成本视角核算的表格, 并根据模型推理的算力需求和SLO的需求构建了一套约束搜索算法.

搜索算法倒是很好搞的, 其实很容易的改一下shallowSim就可以算了, 本质上枚举完各种组合下的数据, 然后pandas查表就好

下周有点空了去把GPU参数中增加一个价格参数, 然后再做点性价比的计算就好.

主要难点还是在通信上, 字节把同构的All2All通信变成M:N的Mesh通信,实际上还有很多问题没处理干净. 先来看看字节的说法

首先是通信库的问题, NCCL test为什么比perftest高那么多? 特别是在P99的时候? 其实字节的解释没有抓住最根本的问题, Kingman公式来计算队列延迟才是关键呀. 然后问题定义不清楚的情况下,做了几个优化. 一个是自己搞了一套通信机制

但这样弄远没有DeepEP LL-Kernel那样直接用IBGDA干净呀. 然后针对网络上调整了拥塞控制算法和提高了ACK的优先级? What’s the problem? 其实更直接的叙事应该是引用Kingman公式, 然后想办法在网络上和计算上降低变异系数.

计算上的变异系数控制, DeepEP明显做的更干净, 一个hook函数很快的能够拉起计算就行了, 虽然字节也是类似的优化通过flag来控制.

而网络上,本质就是Mellanox(Nvidia)网卡的设计缺陷, 即便是开了AR还会有几个微秒延迟的上升, 主要是在接收端ReOrder的实现上, DDP的作业抄的不干净…我们在两年前设计eRDMA拥塞控制算法的时候就考虑过AE分离的问题, 因此对接收端的incast情况下的变异系数的考虑远高于带宽利用率, 当然最终的结果是带宽又能打满,变异系数又几乎为0,多路径打开和关闭延迟没区别,甚至开了由于单个QP可以在两个网口上传输延迟更低.

然后在接收端ReOrder设计上规避了RoCE协议的缺陷, 直接用iwarp DDP就很容易解决了呀. 下图eRDMA两年前的benchmark, Nvidia到现在还没追上…

其实还有一个问题是在字节**《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》**[2]提到的

Reducing ECMP hashing conflicts. The conflict probability is reduced as the bandwidth of each uplink is double of that of a downlink. Second, eight 200G NICs on the server is connected to eight different switches in a multi-rail way.

ECMP hash冲突的问题, 然后当你需要M:N的AE分离时, Multi-Rail way 如何组网呢? 当然钱多换IB, 稍微钱少一点买SP4+BF3开RoCE的AR,但又是Lossless的…

还有一种方案是, 如果给我用BlueField3L的网卡, 可以做一个比较hack的Lossy多路径方案,GPU和BF3L建立一个QP,然后利用BF3的DPA去从多个QP发送, 并且每个DPA Core还需要探测路径上的RTT并更改UDP源端口

但是当M:N部署后, Expert侧会有大量的QP, 而DPA只有那么16个Core和每Core 16个线程, 算力又不够咯. 势必又要在这里引入DCT来解决QPScale的问题, 而eRDMA给用户呈现的128K个QP可以多路径全开,主要是底层完全实现了stateless的subflow, 还有一个根本性的问题是当出现拥塞后, DPA如何做到降速或者是路径切换这个两难的决策问题, 另外接收端如何做到ReOrder buffer free的实现? DPA上不得跨核通信么, 本质的问题是MLNX这群人对内存模型的理解存在很大的问题.

最后扯个淡… 一个月前就预测过NV的股价会到70~80的区间

如今盘后的价格离进入80这个区间就差2块钱了…

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述