字节万卡(大规模)集群训练平台设计方案：集群容错、分布式方案、算法优化、通信加速、数据加载、底层 MegaScale: Scaling Large Language Model 视频教程

爱串门的小马驹

已于 2024-10-11 13:59:19 修改

阅读量2.9k

点赞数 24

分类专栏：万卡大规模集群大模型训练文章标签：语言模型人工智能自然语言处理分布式算法

于 2024-05-30 19:16:56 首次发布

本文链接：https://blog.csdn.net/lianghuaju/article/details/139126612

版权

万卡大规模集群大模型训练专栏收录该内容

7 篇文章

订阅专栏

一、为什么要万卡训练集群：

大语言模型贼牛逼这个就不强调了哈，机器翻译，人机会话表现出巨大潜力和应用价值。模型大小和训练数据大小决定了模型能力，为实现最先进的模型，人们已经致力于万亿tokens训练具有万亿参数的大型模型。这就需要建立具有数万个GPU的大规模人工智能集群来训练LLM(大语言模型)。

二、万卡训练集群的挑战：

1、实现大规模高训练效率；(能不能把万卡的算力有效利用起来)

2、实现大规模高稳定性训练；(卡太多每个都可能故障，很容易出现各种故障)

视频教程

1.1 大规模/万卡集群训练平台MegaScale的挑战、设计原则、考虑因素、出现原因MegaScale: Scaling Large Language_哔哩哔哩_bilibili

1.2 大语言模型LLM训练优化，并行注意力、滑动窗口、增加batchsize单次训练数据量，万卡加速训练MegaScale Scaling Large_哔哩哔哩_bilibili

1.3 万卡分布式训练，ZeRO数据并行优化通信与数据加载并行_哔哩哔哩_bilibili

1.5 万卡训练张量并行优化数据切片计算通信并行大规模集群_哔哩哔哩_bilibili

1.6 大规模训练数据加载优化，消除多余加载器，数据加载通信并行，万卡集群MegaScale_哔哩哔哩_bilibili

1.7 大规模集群训练、通信初始化优化、网络拓扑_哔哩哔哩_bilibili

1.8 大规模集群网络拥塞控制 ECMP PFC DCQCN NCCL通信超时重传_哔哩哔哩_bilibili

1.9 底层算子融合为什么能加速计算_哔哩哔哩_bilibili

1.10 万卡集群集群容错性能监控心跳检测自行诊断故障恢复_哔哩哔哩_bilibili

视频教程还在持续更新中

三、万卡训练集群设计原则：

1、算法-系统协同设计

2、减少通信量/时间，通信和计算重叠

3、不降低精度情况下，优化计算过程

4、深度可观测性

万卡训练集群设计需考虑因素：

1、算法

2、分布式并行方案

3、数据加载

4、网络与通信

5、底层算子

6、集群容错与性能监测

4.1 LLM算法优化

在不影响模型精度的情况下进行算法优化，以实现大规模的高训练效率。

4.1.1 并行注意力机制( parallel attention)

如上面公式(1)所示，Attention算完的结果作为LN输入，LN才算。LN算完之后作为MLP输入，MLP才算，这是一个串行的计算过程，

改进为公式(2)，LN算完之后，MLP和Attention可以并行的算。因此，并行注意力可以减少计算时间。

视频教程：1.2 大语言模型LLM训练优化，并行注意力、滑动窗口、增加batchsize单次训练数据量，万卡加速训练MegaScale Scaling Large_哔哩哔哩_bilibili

4.1.2 滑动窗口注意力机制(Sliding window attention (SWA))

由于一句话是一个时间序列，我们在根据已有序列预测下一个字时，越靠前的字与我要预测字的相关性越弱。我们可以设置一个窗口，窗口之前的单词我们就忽略不计算了，减少计算量。每预测出一个单词，窗口就往回移动一格，预测下一个，所以叫滑动窗口。

就比如说，“爱串门的小”，我们预测下一个字，我们可以直接利用整个序列“爱串门的小”预测出“马”字。我们用“爱”一个字就预测不出“马”，距离太远，相关性太弱。我们可以设置长度为4当窗口，用“串门的小”就预测出“马”字了，忽略“爱”，减少计算量。但我们把“马”字预测出来了，预测下一个字时，我们把“爱”和“串”字都忽略，直接用“门的小马”预测下一个字，这里窗口是不是就往后滑动一格，忽略了“串”字。所以叫滑动窗口。

4.1.3 LAMB优化器

大规模训练受到批量大小限制。特别是，增加批量可能会影响模型收敛。LAMB可以将批量大小扩展到4倍，而不会损失准确性。为什么增大一批次训练数据量会减少训练时间，哈哈哈，爱串门的小马驹，贴心的给大家画了个图（怎么这么贴心，不点赞说不过去了啊），如下图所示，训练同样的数据耗时：

4.2 分布式训练方案

4.2.1 数据并行通信重叠

其实向Pytorch的DDP和FSDP已经做了训练与通信重叠，如上面的图所示，比如后向计算过程中，计算完一部分就通信Reduce-Scatter通信，这样，后续的后向计算过程中，同时进行通信，计算通信就重叠了。

但这样存在问题，就是我后向计算完成之后，还会进行一次Reduce-Scatter通信，前向计算开始之前，至少需要进行一次Allgather操作，才能进行进行计算，这两次通信时，计算通信是没有重叠的。

因此可以在这两次通信过程中，预加载数据，来让通信与数据加载重叠。

视频教程：1.3 万卡分布式训练，ZeRO数据并行优化通信与数据加载并行_哔哩哔哩_bilibili

4.2.2 流水线并行通信重叠

前向流水并行时，当一个GPU计算完发送数据给下个GPU当同时，就进行下一次计算。发送数据就和前向计算重叠了，即。

哈哈哈，反向时是不是也可以用同样当技术啊，发送数据时就进行下一次反向计算。我看有的博文说，这里是将recv和backward，个人感觉不是啊，只有收到数据后才能进行计算，这里还是send和backward重叠。（哈哈哈，同学们要对自己有信心，要勇于挑战专家，错了就错了及时纠正就好。哈哈哈，如果是我爱串门的小马驹错了，大不了发视频道歉，承认自己菜）

由于前向和反向计算相对独立，是不是可以让前向的recv接收和backwark反向计算重叠，后向计算的recv和前向计算过程重叠。这里不就是，recv和计算重叠了么。