pytorch的DP和DDP

最新推荐文章于 2024-04-28 10:46:44 发布

qiumokucao

最新推荐文章于 2024-04-28 10:46:44 发布

阅读量887

点赞数 3

分类专栏：深度学习 pytorch 文章标签： pytorch 机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiumokucao/article/details/120179961

版权

深度学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

11 篇文章 1 订阅

订阅专栏

参考

https://andrew.gibiansky.com/blog/machine-learning/baidu-allreduce/#

https://zhuanlan.zhihu.com/p/343951042

本文只记录一下，为什么DDP的通信比DP的高效。

1、DP

Data transfer to and from a single reducer GPU

假设共有K个GPU，GPU的通信带宽是B，每个GPU要发送的数据量是P（所有参数的梯度信息），那GPU0接收完所有信息，需要耗时(K-1)P/B，GPU0更新完参数后，需要同步给其他GPU，又需要耗时(K-1)P/B，所以每迭代训练一次，通信耗时2(K-1)P/B，耗时和GPU数量线性相关。

2、DDP

DDP 支持 Ring AllReduce，其通信成本是恒定的，与 GPU 数量无关。

GPUs arranged in a logical ring

DDP模式下，GPU会把要同步的数据分成K份，K为GPU的个数，每次循环每个GPU需要接收和发送的数据量为P/K。

首先是Scatter-reduce过程，下图第一次循环的情况：

Data transfers in the first iteration of scatter-reduce

第一次循环后，每个GPU会把收到的数据和自己的数据进行相加，然后进行下一个循环：

Scatter-reduce data transfers (iteration 2)

经过K-1次后，每个GPU都有其中一部分参数的完整数据，比如GPU0有完整的b，GPU1有完整的c。

Final state after all scatter-reduce transfers

经过上述的Scatter-reduce后，后续再进行Allgather。

Allgather第一次循环:

Data transfers in the first iteration of the allgather

第二次循环：

Allgather data transfers (iteration 2)

经过K-1次后，所有的GPU都有所有参数的完整数据：

Final state after all allgather transfers

所以整个同步过程需要时间为2(K-1)(P/K)/B，耗时不会随着GPU数量增加而等比增加，大大提高了GPU之间的数据同步效率。

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
pytorch的DP和DDP

参考https://andrew.gibiansky.com/blog/machine-learning/baidu-allreduce/#https://zhuanlan.zhihu.com/p/343951042本文只记录一下，为什么DDP的通信比DP的高效。1、DP假设共有K个GPU，GPU的通信带宽是B，每个GPU要发送的数据量是P（所有参数的梯度信息），那GPU0接收完所有信息，需要耗时(K-1)P/B，GPU0更新完参数后，需要同步给其他GPU，又需要耗时(K-1).
复制链接

扫一扫

专栏目录

qiumokucao CSDN认证博客专家 CSDN认证企业博客

码龄13年

34: 原创

11万+: 周排名

29万+: 总排名

15万+: 访问

: 等级

1082: 积分

33: 粉丝

141: 获赞

59: 评论

376: 收藏

私信

关注

热门文章

分类专栏

pytorch 11篇
深度学习 11篇
opencv 2篇
numpy 1篇
Linux 1篇
GitHub 2篇
Python 6篇
TensorFlow 9篇
CV 5篇
机器学习 1篇

最新评论

pytorch模型转到TensorFlow lite：pytorch-＞onnx-＞tensorflow-＞tensorflow lite
u鱼: 您好，请问onnx转TensorFlow时，onnx是什么版本呀？我一直有版本不匹配的报错
COCO 格式的数据集转化为 YOLO 格式的数据集
JJDaniel: 应该是你json的路径填的是文件夹，我看博主那行代码后面的default是.json格式，不是很理解
pytorch 2.0初探：和pytorch 1.13的速度对比
油碟小菜: 这个torch.compile还挺鸡肋的，比较适合那种大数据集，长训练(几百个epoch)使用，不然收益很低，主要是第一个epoch编译的很久
COCO 格式的数据集转化为 YOLO 格式的数据集
qiumokucao: 打印写的很清楚啊，没权限
COCO 格式的数据集转化为 YOLO 格式的数据集
笔直且黄莺: 请问UP主知不知道为什么一直在报 “PermissionError: [Errno 13] Permission denied: 'C:/Users/20462/Desktop/soad/labels/'” 这个错误？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。