大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB

爱串门的小马驹

已于 2024-10-08 06:57:45 修改

阅读量1.6k

点赞数 27

分类专栏：万卡大规模集群大模型训练文章标签：异构集群大规模集群分布式大模型训练

于 2024-09-30 15:23:41 首次发布

本文链接：https://blog.csdn.net/lianghuaju/article/details/142636318

版权

万卡大规模集群大模型训练专栏收录该内容

7 篇文章

订阅专栏

视频教程在这：

3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili

一、大规模异构集群出现的原因：

同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源。例如，训练GPT-4模型（1.8万亿个参数）需要25000个A100 GPU。用一种GPU加速器构建大规模集群是一个挑战。使用多种类型的GPU加速器构建大规模集群是解决同构GPU加速器不足问题的有效方法。

然而，现有的大规模模型分布式训练系统只支持同构GPU加速器，不支持异构GPU加速器。

因此出现了大规模模型的混合并行分布式训练系统HETHUB，该系统支持异构集群，包括AMD、Nvidia GPU和其他类型的GPU加速器。它引入了一个分布式统一通信器来实现异构GPU加速器之间的通信，一个分布式性能预测器和一个自动并行规划器来使用异构GPU加速器高效地开发和训练模型。与具有同构GPU加速器的分布式训练系统相比，我们的系统可以支持异构GPU加速器的六种组合。我们在具有768个GPU加速器（128个AMD和640个GPU加速器a）的异构集群上训练Llama-140B模型。实验结果表明，我们的系统在异构集群中的最佳性能达到了理论上限性能的97.49%。

二、异构大规模集群的挑战

1）通信挑战。不同类型的GPU加速器不能直接相互通信，因为不同类型的CPU加速器有不同的通信库，如Nvidia GPU使用NCCl，GPU加速器C使用HCCL。

2）算力不均衡的分布式训练挑战。为异构集群中的大规模模型设计和实现最优的分布式训练策略非常困难。不同类型GPU加速器的计算和存储差异以及大规模模型的计算通信强耦合特性导致分布式策略的数量随着异构GPU加速器、层或模型运算符的数量呈指数级增长。

3）准确性挑战。不同类型GPU加速器上算子的精度差异将使模型的精度难以达到齐次聚类的精度。

因此大规模模型的混合并行分布式训练系统HETHUB，做了如下工作。

1、异构通信：我们构建了一个分布式统一通信器来支持不同GPU加速器之间的通信。该通信器包括两个通信库，一个是基于CPU的以太网或IPoIB通信器；另一个是具有IB或RoCE的基于GPU的通信器，它定义了一个统一的通信接口以适应多种类型的GPU加速器。

2、分布式性能预测器，以帮助评估异构集群上模型的分布式训练策略。我们在一个小集群上进行自动分析，并构建性能评估模型。然后，该性能评估模型可用于进行性能预测，以指导大规模集群上分布式训练策略的决策。

3、自动并行规划器，它可以为给定的模型和异构集群拓扑自动搜索最优的分布式并行策略。它可以提高开发和模型计算效率。

异构通信请参考前面的博客和视频

GPU与国产芯片异构通信方案，异构万卡集群初步调研-CSDN博客

3.1异构万卡集群，GPU与国产计算卡芯片异构通信_哔哩哔哩_bilibili

今天我们重点讲一下，算力不均衡的分布式训练挑战。

三、算力不均衡非均匀拆分策略

针对异构算力，不均衡算力，模型拆分的基本思路

3.1 基于流水线并行的非均匀拆分策略

在大语言模型的训练中，采用基于流水线并行的异构训练方案，通过非均匀拆分transformer层，可有效应对算力不均衡的难题。可以根据各芯片的实际算力，让算力较高的芯片处理更多的层，算力较低的芯片处理更少的层，从模型结构角度，每层的计算量是一致的，所以按算力比作为层拆分比例可以达到最好的效果。例如，假设芯片A的算力是芯片B的4倍，则可以让芯片A计算4层transformer模块，让芯片B计算1层transformer模块，以此达到资源的最优配置，理论上可实现最高的吞吐性能。

3.2 基于数据并行的异构训练

基于数据并行的异构训练，同样可通过调整不同芯片上的数据批处理规模，来应对算力差异。例如，在芯片A算力为芯片B的4倍情形下，可以让芯片A每轮迭代计算4个batch，而芯片B仅计算1个batch，以此平衡各芯片的工作负载，达到理论上的最优吞吐率。