昇思MindSpore技术公开课大模型专题精彩继续!上期课程我们带来了从深度学习并行模式到优化方案求解的全面讲解。下面我们对第十三讲的课程多维度混合并行自动搜索优化策略知识点进行总结:
01
并行模式回顾
并行模式主要包括数据并行和模型并行。
一些经典的并行架构包括了:Megatron-LM、GPipe、TeraPipe等。
02
时间损失模型建模回顾
现有一些损失模型存在三个方案的不足。
根据理论推导,建立了考虑计算和通信的GPipe并行架构的时间损失模型:
考虑流水线模型划分,进一步推导了时间损失模型的包含可优化项的公式:
03
改进多维度二分法回顾
针对GPipe的流水线并行方案划分,介绍了改进多维度二分法:
并对其进行了示例说明:
04
实验现象回顾
05
Automatic 3D Parallelism Strategies Search (APaSS/APSS)算法
1)因为随着目前深度学习领域相关研究的推进,模型的参数越来越多超出了单个GPU的承受能力,特别是当下大语言模型的火热加剧了这一现状,需要从不同维度配合进行分布式训练。
2)现有的分布式训练策略有哪些:数据并行、张量并行、流水线并行以及序列并行
3)APaSS/APSS算法:
-
基于对待训练模型的计算开销以及结合集群的候选通信开销的采集,利用启发式策略结合神经网络算法对3D并行策略进行求解。
-
利用对比强化学习策略离线对神经网络求解器进行训练,随后在迁移应用场景使用的时候无需微调和重新训练。
4)APaSS/APSS算法的使用: