模型并行训练

cv-daily

已于 2023-07-14 09:52:47 修改

阅读量298

点赞数

文章标签：深度学习分布式

于 2023-07-14 09:52:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41012399/article/details/131716695

版权

1.3d并行相关

流水线并行水平划分模型，即按照层对模型进行划分；张量并行则是垂直划分模型。
再好好理解激活和梯度！

梯度数目一般是等于参数数目的（除了梯度重新参数化那些！！）

注意激活值等也是要保存的！：存储wb，激活值，梯度，以及adam等，还有一些零时信息

3d并行的一个解释：这个很不错

更多的理解：ok

提到了tf的一些策略和异步方法：做个了结

1.zero系列就是特殊的数据并行啊，感觉和其它3d并行不矛盾啊，但是通信可能比较多；2.但是对于tp很疑惑，这个是怎么实现呢，可以全部跑一遍（如果分开存在小的气泡且要通信，全跑存在浪费但是减少通信）；3.zero2之后，后向过程中通信增加，就是梯度那个环境，假设是同步跨卡交互，zero还要allreduce，bloom也测试确实效率下降较多！

好好理解参数量，一共是3份，mv这两个默认是0，不需要传递！！另外正常情况下，要传递的只有梯度！！权重，优化器情况是不用管的，而且是先计算完，最后再同步，之后同步后调用更新！

激活值开启混合精度也是fp16的！

2.ZeRO相关(微软的)

deepspead使用的一些技巧：标记，需要测试

使用方法补充：ok，需要重点标记

官网：标记

zero说明：这个文章解释的很不错

zero2补充：这个是可以使用cpu或gpu处理交互数据的！

非常不错，图很好！还有一堆知识：重点！！

1.分析zero1:优化器不需要同步，如果一张卡一层这种，如果是不全的话，是需要同步的！是要按照层划分的；2.zero1后向通信不变，前向必须通信啊！不然w怎么同步呢？

3.并行训练相关（直接用ddp和horovod）

horovod说明：这个也是一个并行库，uber开源的，相关安装方法，比较麻烦，需要自己配置对应的通信库（默认是基于mpi的）、gpu支持信息很全面！

horovod代码细节：重点标记

mpi+nccl组成

对于ddp方法，每一个gpu一个进程（确实观察到了这个现象）

目前好像torch.distributed.launch已经建议废除，使用torchrun

ddp的代码细节：大佬非常厉害

ddp相关的一些说明：这个比较全面

gpu用nccl，cpu用gloo一般

对比说明：先就用ddp自带的，那个找别的机器测试一下

4.通信相关

常用的通信库：openmpi（2009，没有考虑节点延迟，带宽不同的问题），nccl（2015还不支持，2017之后支持多节点），gloo，加油一个阿里巴巴的accl（基于Having-Doubling，做了拓扑，但是会变换节点链接）

allreduce有很多种方法，很多种代码！

经典架构是ps

α + S / B + S * C 通信时间包括：节点通信第一项，数据/带宽第二项，数据计算时间第三项

1.ps：2*(α + S/B) + NSC，主节点带宽非常容易成为瓶颈

2.树状算法：2*（log2k+1）次通信，如果是2n次，没有1 ，整理耗时 2*log2N(α + S/B + S*C )*

3.蝴蝶算法：全部通信，log2N*(α + S/B + S*C )

4.环状通信：*2*(N-1)[α+S/(NB)] + (N-1)[(S/N)C]

非常全面：这个文章写的很好，而且给出了相关的可能时间，重点标记！

ring-allreduce 最早是百度的文章

allreduce原理：可以看一下百度的文章

accl说明：暂时没有看，标记一下，优化了环形通信的节点太多时延问题

还有异步相关的：这个看到的不多

有个很好奇的，allreduce比如2*8情况，是16节点还是8节点2个主通信？

第一个是2（16-1）=30

第二个是2（8-1）+1+7=22

上面3种的补充：仔细研究

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模型并行训练

3.zero2之后，后向过程中通信增加，就是梯度那个环境，假设是同步跨卡交互，zero还要allreduce，bloom也测试确实效率下降较多！常用的通信库：openmpi（2009，没有考虑节点延迟，带宽不同的问题），nccl（2015还不支持，2017之后支持多节点），gloo，加油一个阿里巴巴的accl（基于Having-Doubling，做了拓扑，但是会变换节点链接）：这个也是一个并行库，uber开源的，相关安装方法，比较麻烦，需要自己配置对应的通信库（默认是基于mpi的）、gpu支持。
复制链接

扫一扫

cv-daily CSDN认证博客专家 CSDN认证企业博客

码龄7年

364: 原创

1万+: 周排名

5万+: 总排名

59万+: 访问

: 等级

5767: 积分

4990: 粉丝

385: 获赞

140: 评论

1493: 收藏

私信

关注

热门文章

分类专栏

笔记 17篇
nvidia nx 18篇

最新评论

yolov5，转onnx，转caffe
yebour: 你转成功了吗？可以分享一下么？我也不知道修改哪儿啊
yolov8 ddp训练报错，代码bug修改
1024##: 改完之后好像还没成功
pt/pth模型节点名称不同
BUG_Makerroy: 兄弟请问找到解决办法了吗？我也遇到了这个问题
detr训练代码解析，训练自己的数据集
m0_58371042: query_embed.weight可以修改吗？100感觉太大了，怎么修改的更小？
pt/pth模型节点名称不同
Su~san&jay: 我也是这个问题一模一样，怎么解决呢，感觉pytorch换后还是这样呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。