Pytorch 单机多GPU训练 DataParallel和DistributedDataParallel

lizi0403

已于 2022-07-23 14:11:37 修改

阅读量540

点赞数

分类专栏： pytorch 文章标签： pytorch 深度学习

于 2021-11-04 23:07:13 首次发布

本文链接：https://blog.csdn.net/qq_41021141/article/details/121153457

版权

pytorch 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、DataParallel原理

2、DataParallel使用

os.environ['CUDA_VISIBLE_DEVICES'] = '2, 7'  # 设置可见GPU编号
# device_ids=range(torch.cuda.device_count())  # torch.cuda.device_count()=2
# device_ids=[0,1] 这里的0 就是上述指定 2，是默认主gpu,  1就是7,模型和数据由主gpu分发

model = Model(...)
if torch.cuda.device_count() > 1:
  model = nn.DataParallel(model)

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model.to(device)  # cuda:0将为主gpu
# 以上两行可以用model.cuda()代替，默认cuda:0为主gpu

...

mytensor = my_tensor.to(device)

3、使用DataParallel的模型保存与加载：

https://www.cnblogs.com/wildkid1024/p/13025352.html

4、DistributedDataParallel单机多gpu训练与模型保存加载：

（文中代码里有少许bug）：

Multi-GPU Computing with Pytorch (Draft) (srijithr.gitlab.io)

参考：

pytorch 多GPU训练总结（DataParallel的使用）_不忘初心不动摇-CSDN博客_pytorch多gpu训练

Optional: Data Parallelism — PyTorch Tutorials 1.10.0+cu102 documentation

pytorch多gpu并行训练 - 知乎

lizi0403

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pytorch 单机多GPU训练 DataParallel和DistributedDataParallel

1、原理2、实现os.environ['CUDA_VISIBLE_DEVICES'] = '2, 7' # 设置可见GPU编号# device_ids=range(torch.cuda.device_count()) # torch.cuda.device_count()=2# device_ids=[0,1] 这里的0 就是上述指定 2，是默认主gpu, 1就是7,模型和数据由主gpu分发model = Model(...)if torch.cuda.device_count.
复制链接

扫一扫