多维度混合并行自动搜索优化策略 | 课程回顾

昇思MindSpore

于 2024-06-06 16:14:20 发布

阅读量457

点赞数 3

文章标签：开源自然语言处理学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kenji_Shinji/article/details/139503414

版权

昇思MindSpore技术公开课大模型专题精彩继续！上期课程我们带来了从深度学习并行模式到优化方案求解的全面讲解。下面我们对第十三讲的课程多维度混合并行自动搜索优化策略知识点进行总结：

01

并行模式回顾

并行模式主要包括数据并行和模型并行。

一些经典的并行架构包括了：Megatron-LM、GPipe、TeraPipe等。

02

时间损失模型建模回顾

现有一些损失模型存在三个方案的不足。

根据理论推导，建立了考虑计算和通信的GPipe并行架构的时间损失模型：

考虑流水线模型划分，进一步推导了时间损失模型的包含可优化项的公式：

03

改进多维度二分法回顾

针对GPipe的流水线并行方案划分，介绍了改进多维度二分法：

并对其进行了示例说明：

04

实验现象回顾

05

Automatic 3D Parallelism Strategies Search (APaSS/APSS)算法

1）因为随着目前深度学习领域相关研究的推进，模型的参数越来越多超出了单个GPU的承受能力，特别是当下大语言模型的火热加剧了这一现状，需要从不同维度配合进行分布式训练。

2）现有的分布式训练策略有哪些：数据并行、张量并行、流水线并行以及序列并行

3）APaSS/APSS算法:

基于对待训练模型的计算开销以及结合集群的候选通信开销的采集，利用启发式策略结合神经网络算法对3D并行策略进行求解。

利用对比强化学习策略离线对神经网络求解器进行训练，随后在迁移应用场景使用的时候无需微调和重新训练。

4）APaSS/APSS算法的使用:

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。