pytorch指定GPU后仍旧使用GPU0的解决方法

最新推荐文章于 2024-11-30 17:27:36 发布

正则化

最新推荐文章于 2024-11-30 17:27:36 发布

阅读量1.3w

点赞数 20

分类专栏：深度学习笔记

本文链接：https://blog.csdn.net/weixin_41519463/article/details/110561374

版权

我在训练模型的时候，已经指定了使用GPU5、6进行训练，然而pytorch却强行在GPU0里占用100多M的空间，但是刚好GPU0被别人占满了，导致一直是CUDA:out of memory的状态.
这个问题跟为什么Pytorch死活要用第0块显卡–我和pytorch的恩怨情仇非常像，但是我用他的方法根本不管用，感觉我的情况跟他的应该是不相同的，所以我只能自己找问题。

我根据错误提示，发现溢出的语句是加载预训练模型参数的地方：

rnet_checkpoint = torch.load('../s_resnet50_0.25_0.5_0.75_1.0.pt')['model']
rnet.load_state_dict(rnet_checkpoint)

原本我想的是，

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

正则化

关注关注

20
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python如何使用gpu加速_小蛇学python（22）pytorch配置cuda实现GPU加速

weixin_39624367的博客

12-04

1213

深度学习如火如荼，使用普通的cpu来跑模型真的让人急死，就算最普通的垃圾显卡，只要支持cuda，就可以实现gpu加速，其速度至少是cpu的5倍。本文就来讲述，在配置pytorch+cuda环境实现gpu加速时遇到的坑。首先你应该检查一下自己电脑的显卡是否支持gpu加速，并且对应的cuda版本号是多少。右键点击NVIDIA控制面板，点击下图左下方的系统信息。查看cuda版本号1.png然后点击组件，...

NMS处理候选框（普通的NMS、numpy 、torch官方和 GPU）

qq_44635614的博客

04-22

940

NMS处理候选框（普通的NMS、numpy 、torch官方和 GPU）

参与评论您还未登录，请先登录后发表或查看评论

指定了具体的gpu，但是仍然使用的是gpu0

记录学习历程

04-19

1841

在运行代码时，发现指定了gpu，但是仍然使用的时gpu0，gpu0已经占满，导致。但是要注意gpu编号发生了变化，原来的gpu2编号为0。一定要在import torch前加。

不管怎么指定pytorch都使用gpu0进行训练解决方法

qq_35037684的博客

06-09

5916

这个问题困惑了我好久，不管怎么指定，程序中用的 os.environ['CUDA_VISIBLE_DEVICES'] = '1,2' 并不管用最后都显示 RuntimeError: CUDA out of memory. Tried to allocate 158.00 MiB (GPU 0; 11.17 GiB total capacity; 556.72 MiB already allocated; 26.06 MiB free; 17.28 MiB cached) 真的是很泪奔了，最后查到，pyto

关于pytorch指定了gpu还是占用了别的gpu的显存的问题

qq_43994782的博客

02-07

2393

莫名占用别的gpu

解决pytorch指定GPU后还使用第一张卡的问题

qq_53239443的博客

11-13

2599

最近在用gpu跑自己的一个基于Bert的情感分析任务，组内一台单机四卡服务器中0号卡师兄占用做，显存剩余不到1G。我部署过去的程序没有设置在几号gpu上运行，结果就默认到0号卡，报了以下错误。放在 import torch 之前！最后解决了问题，我的项目终于成功运行了。按照网上教程，提出的。

（已解决）（pytorch指定了gpu但还是占用了一点0号gpu）以及错误（cuDNN error: CUDNN_STATUS_INTERNAL_ERROR）

qq_43391414的博客

12-29

4927

前者报错我的理解是当使用CUDA的时候Pytorch内部有一个初始化，默认运行在第0块GPU（即使模型被指定运行在其他GPU），然后显存不足指的是在初始化的时候显存不足，也就是第0块GPU显存不足以支撑初始化了，一般初始化其实并不消耗多少显存，比模型运行时一般小多了，那为什么还会报错呢？：仅有5号gpu可见，此时gpu编号会改变，5号gpu会变成0号gpu，所以指定0号gpu，其实就是指定原来的5号gpu。我们其实就是要解决Pytorch指定了gpu但还是会占用了一点0号gpu（初始化默认会在0上面）。

为什么Pytorch死活要用第0块显卡--我和pytorch的恩怨情仇

桃子好好吃的博客

07-18

1万+

为什么Pytorch一定要用“cuda:0”问题原因解决方法问题在使用Pytorch进行训练的时候，有一个奇怪的问题是，无论怎么在代码里指定显卡，最终运行时始终会在第0块显卡上占用少量的内存。本来是个无伤大雅的问题，但是一旦0号显卡被自己或者别人占满了，就很抓狂

PyTorch实现Pointnet2及Pointnet++：多GPU支持与自定义操作

- 通过使用PyTorch的DataParallel或DistributedDataParallel模块，可以实现在多个GPU之间并行处理数据。 - 多GPU支持能够显著加速训练过程，特别是对于复杂的模型和大型数据集。 4. PyTorch版本兼容性: - 项目...

pytorch模块与基础实操

最新发布

OrangePeeeeel的博客

11-30

1206

一、基本配置1.导入必要的package适当的导入包能帮助我们达成目的例如：torch，这是PyTorch的核心库，提供了张量操作（如创建张量、张量运算等）、神经网络模块（如构建层、损失函数）、自动求导等功能。像 torch.Tensor 用于创建张量， torch.nn 用于构建神经网络。torchvision，用于计算机视觉任务。它提供了流行的数据集加载（如MNIST、CIFAR - 10等）、模型架构（如AlexNet、ResNet等）和图像转换函数。

指定了使用其它GPU，但仍然使用GPU0

zjy1125的博客

03-20

769

后来翻阅了写的其它脚本，把最开始的两行指定GPU放在了代码最开始，报错解决。发现报错依然存在，依然使用的GPU0。

pytorch会自动使用gpu吗？

m0_57236802的博客

10-08

607

记住，在将模型和数据移动到 GPU 上后，所有的运算（包括前向传播、反向传播和优化器步骤）都会在 GPU 上执行，这通常会比在 CPU 上执行更快。方法来将张量或模型移动到 GPU 上，同时需要确保你的系统中有可用的 NVIDIA GPU，并且已经安装了合适版本的 CUDA。PyTorch 不会自动使用 GPU，你需要明确指定将张量和模型移动到 GPU 上。在 PyTorch 中，你可以使用。这种方式使你的代码更具可移植性，因为它可以在有或没有可用 GPU 的系统上运行。

Pytorch训练时GPU利用率为0或很低

shimmer_ghq的博客

07-10

6654

pytorch训练时，显存明显上去了，模型和数据都在gpu上，但GPU利用率仍为0%

指定GPU，实际占用第一个GPU的解决方法

junjian Li

11-25

4798

有时候指定GPU运行代码的时候，发现指定的是第3块GPU，但是代码实际是在0号GPU上运行，先按照PCI_BUS_ID顺序从0开始排列GPU设备，然后再设置当前使用的GPU设备仅为0号设备设备名称为’/gpu:0’，代码如下L import os os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID" os.environ["CUDA_VISIBLE_DEVICES"]="0" ...

Pytorch 0号卡占用问题

weixin_43509263的博客

01-07

2401

RuntimeError: cuda runtime error (2) : out of memory at /opt/conda/conda-bld/pytorch_1587428266983/work/aten/src/THC/THCCachingHostAllocator.cpp:278 如上，我们在跑程序时经常会遇到这种情况，除了常规的因为模型参数量或计算量过大导致的问题，还有一种经常的情况下是因为0号显卡显存不足，导致显存空间分配不足，从而提示报错。很多人有一个疑问就是，为什么我们明明指定的是

【亲测有用】如何使用pytorch指定GPU训练

weixin_44883789的博客

08-28

3441

深度学习中，跑模型代码的过程中，可能主GPU被占用而无法进行训练，这个时候，可知通过torch库来指定训练的GPU号。

训练PyTorch模型遇到显存不足的情况怎么办