Pytorch多GPU并行计算

最新推荐文章于 2024-06-11 20:26:03 发布

w~beta

最新推荐文章于 2024-06-11 20:26:03 发布

阅读量6.6k

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/baidu_38270845/article/details/105823344

版权

pytorch 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

当batch_size设置较大时，单个GPU的显存容易占满耗尽，导致Memeror。而较小的batch_size导致需要每个epoch需要迭代训练更多次，造成效率低下。因此可以考虑采用多个GPU并行计算的方式训练模型（但一般batch_size也不宜过大，训练的时候随机性很重要，极端的情况是batch_size=whole_dataset，训练效果可能不容易收敛且、模型不鲁棒）。一般有两种方法，一是多个GPU并行计算（DataParallel），比较简单，常规易用（但是因为loss等操作是将各副卡的推理结果汇总之后在主卡计算的，因此容易出现主GPU利用率比其他副GPU更高的情况，也就是负载不平衡现象），这种方式也稍微慢些（比分布式计算，多级多卡，或者单机多卡也可以用）；二是多台机器分布式计算（DistributedDataParallel），速度相对前者更快，也不会出现负载不均衡现象，但是比前者配置起来要麻烦很多。
处理机制
多卡并行机制：首先是将模型加载到主GPU，然后将模型复制到其他指定的GPU，接着把输入数据按batch维度划分给各个GPU去计算（batch_size_per_gpu=total_batch_size / num_gpu），各个GPU上的模型和数据独立进行前向推理计算，得到结果（loss）后汇总到主gpu上反向传播更新模型权重，再将主GPU模型更新复制到其他GPU上，over。
分布式计算有时间学到再补充。

具体实现细节
单机多卡-并行计算

# torch.cuda.set_device(origin_device) # 设置.cuda()时默认使用的gpu_id
os.environ["CUDA_VISIBLE_DEVICS"] = "0,1,2,..."
# ...
# set model parallel
model = torch.nn.DataParallel(model).cuda()
# dataset...
dataloader = torch.utils.data.DataLoader(dataset, batch_size=bs_per_gpu * num_gpu, **kwargs)
# 后面的基本不用任何改动

多机多卡或者单机多卡-分布式计算
DistributedDataParallel

其他参考--Pytorch--
1.什么情况下应该设置 cudnn.benchmark = True？
2.pytorch学习笔记：pytorch多gpu并行训练
3.torch.backends.cudnn.benchmark ?!
4.利用随机数种子来使pytorch中的结果可以复现
5.DataParallel与DistributedDataParallel

w~beta

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Pytorch多GPU并行计算

背景并行计算的背景意义并行计算的方法和原理与maskrcnn-benchmark的distribute方式区别（）并行计算的具体实现细节其他Pytorch cudnn trick1.什么情况下应该设置 cudnn.benchmark = True？2.dxxx...
复制链接

扫一扫

专栏目录