运用pytorch轻松搞定模型单机多GPU并行训练

最新推荐文章于 2024-05-12 21:06:44 发布

gz7seven

最新推荐文章于 2024-05-12 21:06:44 发布

阅读量684

点赞数

分类专栏： pytorch 文章标签：深度学习 pytorch 多GPU 模型训练

本文链接：https://blog.csdn.net/guzhao9901/article/details/109054983

版权

pytorch 专栏收录该内容

15 篇文章 9 订阅

订阅专栏

使用单GPU进行模型的训练时会出现CUDA RuntimeError：内存不足的错误，此时你可以降低batch_size或是图像的大小来进行重新的训练尝试，但是假如你有多块GPU则可以进行多GPU的训练。

本人习惯使用pytorch这个框架，因此列出代码供参考。

import torch.nn as nn

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = MyModel.Model()
model = torch.nn.DataParallel(model, device_ids=[0,1]) #multi_GPU，两块显卡，3块为device_ids=[0,1，3]，以此类推
torch.save(model.module.state_dict(), file_name)  
#torch.save(model.state_dict(), file_name) #也可以用此方式，但是读取模型需要与上述情况区分

但DataParallel存在GPU使用不均衡的问题，下图给出了相应解释：
在这里插入图片描述
想要解决GPU使用不均衡的问题需要将每部分输出都保留在原有的GPU上，而不汇集于GPU-1。目前有两种方法大家可以尝试：

张航开源了名为PyTorch-Encoding的包，好好查询一下用法。
控制多个服务器进行分布式处理。

单机多GPU训练的模型在调用中与单GPU有相应的区别，将在下一讲《多GPU训练模型的调用------pytorch》中进行说明。

gz7seven

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
运用pytorch轻松搞定模型单机多GPU并行训练

使用单GPU进行模型的训练时会出现CUDA RuntimeError：内存不足的错误，此时你可以降低batch_size或是图像的大小来进行重新的训练尝试，但是假如你有多块GPU则可以进行多GPU的训练。本人习惯使用pytorch这个框架，因此列出代码供参考。import torch.nn as nndevice = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")model = MyModel.Model()model
复制链接

扫一扫