多维度混合并行自动搜索优化策略 | 课程回顾

昇思MindSpore技术公开课大模型专题精彩继续!上期课程我们带来了从深度学习并行模式到优化方案求解的全面讲解。下面我们对第十三讲的课程多维度混合并行自动搜索优化策略知识点进行总结:

01

并行模式回顾

image.png

并行模式主要包括数据并行和模型并行。

image.png

一些经典的并行架构包括了:Megatron-LM、GPipe、TeraPipe等。

image.png

02

时间损失模型建模回顾

现有一些损失模型存在三个方案的不足。

image.png

根据理论推导,建立了考虑计算和通信的GPipe并行架构的时间损失模型:

image.png

考虑流水线模型划分,进一步推导了时间损失模型的包含可优化项的公式:

image.png

03

改进多维度二分法回顾

针对GPipe的流水线并行方案划分,介绍了改进多维度二分法:

image.png

并对其进行了示例说明:

image.png

04

实验现象回顾

image.png

image.png

05

Automatic 3D Parallelism Strategies Search (APaSS/APSS)算法

1)因为随着目前深度学习领域相关研究的推进,模型的参数越来越多超出了单个GPU的承受能力,特别是当下大语言模型的火热加剧了这一现状,需要从不同维度配合进行分布式训练。

2)现有的分布式训练策略有哪些:数据并行、张量并行、流水线并行以及序列并行

3)APaSS/APSS算法:

  • 基于对待训练模型的计算开销以及结合集群的候选通信开销的采集,利用启发式策略结合神经网络算法对3D并行策略进行求解。

  • 利用对比强化学习策略离线对神经网络求解器进行训练,随后在迁移应用场景使用的时候无需微调和重新训练。

image.png

4)APaSS/APSS算法的使用:

image.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值