如何解决RuntimeError: CUDA error: out of memory？

最新推荐文章于 2024-03-29 15:43:11 发布

Jack_0601

最新推荐文章于 2024-03-29 15:43:11 发布

阅读量3.6w

点赞数 10

分类专栏：知识点

本文链接：https://blog.csdn.net/weixin_43509263/article/details/103841657

版权

14 篇文章 1 订阅

订阅专栏

当我们在使用GPU进行训练和推断时，经常会发现爆显存的问题。
一开始的时候相信很多人跟我一样有个疑问，就是明明显存没占用，可是还是会爆？
这里以8张卡为例，假设前面4张卡被人占用之后，还有后面4张卡是空的，如果这时候我们只是单纯的指定CUDA：0这样，那么必然会报下面这个错：

RuntimeError: cuda runtime error (2) : out of memory at mmdet/ops/roi_align/src/roi_align_kernel.cu:140

当你使用os去指定设备号，然后用如下指令调用：

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '4'
xxx
CUDA:4

它就会报这个错：
RuntimeError: CUDA error: out of memory？

其实本质原因是这样的，当我们指定os.environ[‘CUDA_VISIBLE_DEVICES’] = '4’时，这时候对系统来说，物理号为4的显卡，它的逻辑设备号应该为0，所以我们应该这样指定：

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '4'
xxx
CUDA:0

这样的话才表示是使用第4张卡。

同样的，再举一个例子：

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '2， 4， 5， 7'
xxx
CUDA:2

这样的话就是使用第5号卡，其中2号卡的id为0，4号卡的逻辑号为1，以此类推。

关注