Pytorch使用DataParallel后仍只使用一个GPU

最新推荐文章于 2023-09-07 14:10:49 发布

坐在云朵上的kiwi

最新推荐文章于 2023-09-07 14:10:49 发布

阅读量1.4k

点赞数 2

分类专栏： Linux服务器错误解决集锦文章标签： pytorch gpu 深度学习服务器

本文链接：https://blog.csdn.net/qq_45347185/article/details/130664924

版权

问题

服务器类型：slurm管理下的超算服务器
系统：linux
python版本：3.8
虚拟环境：virtualenv
pytorch版本：1.10
问题描述：在服务器上用上卡跑模型时，使用

model = Model()
model = torch.nn.DataParallel(model).cuda()

后，模型和数据仍然只占用第一个gpu，然后内存爆掉。

解决过程

查阅https://github.com/openai/CLIP/issues/111后得知，对于clip类模型，即在模型训练过程中会调用子模块的情况，比如下面代码。调用子模块的部分不会在多gpu上运行。

model = Model()
model = torch.nn.DataParallel(model).cuda()
img = batch['img']
prompt = batch['prompt']
img_feat = model.module.image_encoder

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

坐在云朵上的kiwi

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pytorch使用DataParallel加速（包括RNN疑难杂症处理）

AnUnverse的博客

07-28

2093

DataParallel的基本使用方法很简单，只需设置device_ids即可，如下所示： device_ids = [0, 1, 2, 3] model = torch.nn.DataParallel(model, device_ids=device_ids) device_ids为你要使用的GPU号。如果你未使用DataParallel之前用的便是单GPU进行训练，那么对于数据不需要额外的操作，否则，你需要将模型的输入数据转移到cuda上，如： # 此处device与device_ids无关，

torch.nn.DataParallel设置了仍然在一块卡上跑的问题

石开的博客

07-28

4769

问题：torch.nn.DataParallel设置之后，仍然在一块GPU上加载直到内存爆掉。解决：如果你的model包含encoder1，encoder2，decoder，discriminator等多个结果，应当对每个结构都用torch.nn.DataParallel包裹，而不是只对model进行包裹。原来（出错）： model = MyModel.MyModel(opt).cuda() model.train() model = torch.nn.DataParallel(model) mode

参与评论您还未登录，请先登录后发表或查看评论

Pytorch的nn.DataParallel 多 GPU 训练只用到单个GPU/只用到一个GPU/不起作用

SugerOO的博客

05-19

9771

最近尝试使用 pytorch 的 nn.DataParallel 进行多 GPU 训练。按照官方文档修改代码后发现只使用了一块 GPU，最后经过查阅论坛，找到了原因。这里总结一下，希望能帮到大家。顺便一提 pytorch 官网推荐使用 DistributedDataParallel 进行多 GPU 训练，而这篇博客只是分享一些问题的原因。 nn.DataParallel 原理简述：在前向传播过程中，将输入的 batch 平均分配到用户指定的 GPU 中，每个 GPU 中有一份 module 的副本，每个

Pytorch使用nn.DataParallel失效：只能使用单GPU / 无法使用多GPU训练

学习 & 分享 ~

05-13

5999

官方文档： torch.nn.DataParallelDataParallel 在 Module 级别实现并行计算，关于使用了 DataParallel 而实际训练时不起作用（只能使用单 GPU）的可能原因：1. 设置的 Batch Size 小于可用的 GPU 数量，这一点在官方文档中也有说明：需要保证大于使用的 GPU 数量。2. 未使用 nn.Module 的默认 forward() 方法执行前向传播。一般情况下，定义的 Model 继承自，在进行前向传播时，调用函数，能够进行多 GPU 并行

pythorch 错误程序只能在一个gpu上运行

ResumeProject的博客

09-24

1529

ctrl+shift+f 全局搜索cuda关于两者的区别和工作方式可以参考，所以解决这个问题只需对设备进行统一即可。

pytorch 解决gpu训练只占一块卡

sinat_16423171的博客

08-02

4401

本文主要解决pytorch在进行模型训练时出现GPU的0卡占用显存比其他卡要多的问题。出现0卡显存更高的原因：网络在反向传播的时候，计算loss的梯度默认都在0卡上计算。因此会比其他显卡多用一些显存，具体多用多少，主要还要看网络的结构。因此，为了防止训练由于 out of memory 而中断。比较笨的办法是减少batch_size 那么没有更优雅的方法呢？答案是肯定的。那就是借用下transformer-xl中用到的 BalancedDataParallel类。代码如下（代码出处）： import

服务器有多张GPU可Pytorch中却只能检测到一张卡（several GPUs, only one can be detected）

开飞机的小毛驴儿

01-03

1万+

遇到了一个棘手的问题，实验室服务器有8张GPU，在使用nvidia-smi时候也能显示8张GPU的编号和使用情况，但是真正在自己跑程序的时候却只能识别到1张卡，且默认是在0号卡上。这样就导致了一个问题，当0号卡有别人在跑程序的时候，经常会出现out of memory的错误。如果你强行在代码中通过诸如： torch.cuda.set_device(4) 或者 import os os.e...

pytorch使用多GPU进行训练batch加载的数据只有1/GPUS

AAliuxiaolei的博客

09-06

682

使用 torch.nn.DataParallel 进行多卡训练是，debug时加载的数据只有1/GPUS

pytorch 使用单个GPU与多个GPU进行训练与测试的方法

09-18

通过nn.DataParallel，模型会在每个GPU上复制一份，输入的tensor会被自动分割，这样每个GPU只负责计算输入tensor的一部分数据。这样一来，模型训练时的数据并行化实现了计算量的平均分配。计算完成后，各个GPU上的...

解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题

01-21

背景在公司用多卡训练模型，得到权值文件后保存，然后回到实验室，没有多卡的环境，用单卡训练，加载模型时出错，因为单卡机器上，没有使用DataParallel来加载模型，所以会出现加载错误。原因 DataParallel包装的模型在保存时，权值参数前面会带有module字符，然而自己在单卡环境下，没有用DataParallel包装的模型权值参数不带module。本质上保存的权值文件是一个有序字典。解决方法 1.在单卡环境下，用DataParallel包装模型。 2.自己重写Load函数，灵活。 from collections import OrderedDict def myOwnLoa

pytorch 限制GPU使用效率详解(计算效率)

12-17

这种方法的核心在于在循环中插入`time.sleep()`函数，让GPU在执行完操作后等待一段时间再进行下一个循环，以此降低GPU的持续工作时间，从而减少其整体使用效率。主要代码示例如下： ```python import time rest_...

将pytorch的DataParallel转移到DistributedDataParallel

RAFA_CHANG的博客

08-18

320

需要转移的原因 DistributedDataParallel是多进程的，并且支持多机并行训练。且哪怕只有1个gpu，也会提升20%的速度几个概念目标是一个进程控制一个gpu args.world_size = args.gpus * args.nodes #每个节点内的GPU个数×节点数 def setup(rank, world_size): os.environ['MASTER_ADDR'] = 'localhost' os.environ['MASTER_PORT'] = '1

PyTorch多GPU训练模型——使用单GPU或CPU进行推理的方法

qq_44949041的博客

09-07

3867

使用DataParallel`和DistributedDataParallel进行多GPU并行训练并报错模型，在推理阶段采用单个GPU或者CPU加载模型。加载时容易出现两种错误：IndexError: list index out of range 和 Missing key(s) in state_dict:。这时可以采用map_location=device等方法进行解决。

解决了PyTorch 使用torch.nn.DataParallel 进行多GPU训练的一个BUG:模型(参数)和数据不在相同设备上

nkhgl的博客

09-27

1607

https://blog.csdn.net/senius/article/details/96599955

PyTorch多个GPU（Data Parallelism）并行与单个GPU的使用

Moon2105的博客

07-06

1069

1.划重点模型放到一个GPU上运行model.gpu() tensor = my_tensor.gpu() 模型放在多个GPU上运行上文中的model.gpu()默认只使用一个GPU，如果你有多个GPU的话，model = nn.DataParallel(model) 注意 DataParallel并行计算只存在在前向传播 2.有例子下面通过一个线性回归的例子来说明；一个输出通过线性变换得到一个结果 #包的导入 import torch import torch.nn as n..

pytorc使用多个GPU同时训练及常见问题解决办法

LCCFlccf的博客

05-16

6211

在pytorch上使用多个GPU（在同一台设备上，并非分布式）进行训练是件非常容易的事情，只要在源代码中添加（修改）两行代码即可。下面贴上官方教程给的示例代码。官方tutorial 把模型放在GPU上: device = torch.device("cuda:0") model.to(device) 将tensor复制到GPU上 mytensor = my_tensor.to(device) ...

pytorch 多个GPU 只想用其中几个gpu时

weixin_39986534的博客

08-24

419

import os os.environ['CUDA_VISIBLE_DEVICES'] = '2,3' 这样就只会用到编号2和3 的GPU了不过需要注意的是在代码中这两个的编号会变成 0,1

Pytorch中多GPU并行计算教程