Pytorch 实现 DistributedDataParallel 操作

Cosmos Tan

已于 2022-10-07 15:56:52 修改

阅读量547

点赞数

分类专栏： Pytorch 文章标签： pytorch 深度学习人工智能

于 2022-05-10 11:24:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tanqy1997/article/details/124683601

版权

Pytorch 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、DataParalle缺点

Pytorch单机多卡（GPU）运行的基本方法是使用torch.DataParlle（）函数，具体操作参考：

其主要原理：假设有四个GPU，batch_size=64，input_dim为输入数据特征维度。nn.DataParallel() 将随机样本集（64， input_dim）分成四份输入到每个GPU。每个GPU处理（16， input_dim）的数据集（前向传播计算）。然后第一个GPU合并四份输出数据，并计算Loss（反向传播计算）。因此第一个GPU计算量大，负载不均衡。

官方也推荐DistributedDataParallel方法。

二、DistributedDataParallel 原理

待续ing

参考：

1、Distributed communication package - torch.distributed — PyTorch 1.11.0 documentation

2、pytorch/CONTRIBUTING.md at master · pytorch/pytorch · GitHubTensors and Dynamic neural networks in Python with strong GPU acceleration - pytorch/CONTRIBUTING.md at master · pytorch/pytorchhttps://github.com/pytorch/pytorch/blob/master/CONTRIBUTING.md

3、Pytorch 分布式训练 - 知乎个人整理，其中分布式代码均亲自验证过，可作为模板使用。第一部分中，部分图片来自知乎提问部分，文中有链接，可以看更详细的讲解，侵删。未经许可，严禁转载！！！内容较多，整理的的有些乱，将就着看吧。能…https://zhuanlan.zhihu.com/p/76638962

4、ring allreduce和tree allreduce的具体区别是什么？ - 知乎知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。https://www.zhihu.com/question/57799212/answer/612786337

5、

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Cosmos Tan CSDN认证博客专家 CSDN认证企业博客

码龄7年

84: 原创

7万+: 周排名

50万+: 总排名

17万+: 访问

: 等级

1534: 积分

39: 粉丝

76: 获赞

29: 评论

361: 收藏

私信

关注

分类专栏

最新评论

pconsc4 安装
weixin_41857049: hello您好，我想请问，我gcc和g++都安装了，还是报您第一张图片显示的错误，请问您之前遇到过这个问题吗？
Singularity实践教程 + Docker 转 Singularity 的避坑指南
Cosmos Tan: 你好，确定一下在使用的是哪一种shell, sh, bash。并查看一下路径是否存在，然后到官网，或github下查一下。
Singularity实践教程 + Docker 转 Singularity 的避坑指南
一只青橘子: 你好，我singularity shell一直报错是怎么回事
理解torch.distributed.barrier()
Cosmos Tan: 你好，不好意思，我目前没遇到，好久没有多卡训练了。
理解torch.distributed.barrier()
只会划水的小白: 你好作者大大，我使用barrier()的时候，进程依然能够继续往下执行，查了一下说可能是多线程问题？请问你遇到过吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。