RuntimeError: CUDA out of memory

最新推荐文章于 2024-06-30 23:24:39 发布

Choo Jane

最新推荐文章于 2024-06-30 23:24:39 发布

阅读量1.2w

点赞数 47

文章标签： pytorch 神经网络 cuda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46600553/article/details/119215650

版权

本文详细记录了解决PyTorch中CUDA内存不足的常见方法，包括减小batchsize、清除缓存、避免梯度计算、关闭其他GPU进程、调整CUDA设备使用和考虑硬件升级等。通过具体案例分析了错误信息，并提供了检查内存分配的工具。最终，作者通过结束占用GPU资源的进程成功解决了问题。

摘要由CSDN通过智能技术生成

报错内容：

RuntimeError: CUDA out of memory. Tried to allocate 16.00 MiB (GPU 0; 2.00 GiB total capacity; 1.34 GiB already allocated; 14.76 MiB free; 1.38 GiB reserved in total by PyTorch)

查资料的过程发现另一种报错：
RuntimeError: CUDA out of memory. Tried to allocate 12.50 MiB (GPU 0; 10.92 GiB total capacity; 8.57 MiB already allocated; 9.28 GiB free; 4.68 MiB cached)

注意到括号内最后一部分的报错是不一样的。

解决

网络上提供的解决方法主要有以下几种：

(1) 减小batch size

最简单有效的办法：重新启动内核并找到最佳batch size之后减少batch size。

(2) 清除缓存

即加上：

torch.cuda.empty_cache()

或者手动清除未使用的变量：

import torch,gc
del variables
gc.collect()
torch.cuda.empty_cache()

但使用该方法错误可能依旧存在，因为Pytorch实际上并不清除内存，而是清除对变量占用的内存的引用。

(3) 不使用梯度

即（在错误代码前）加上：

with torch.no_grad():
      outputs = net(images) #该行为报错代码

在test过程中是要如此处理的，否则会使显存加倍导致out of memory （OOM）错误。但若是在训练过程中采用此策略，可能出现效果差甚至更严重的问题。

(4) 杀死其他占用GPU的进程

（Windows系统）打开cmd，输入命令查看：

nvidia-smi

查看gpu使用1
可以看到gpu被占用情况和占用的进程（以及其进程号PID），接下来杀死最后一个进程：

taskkill /PID 12132 -t -f

其中12132是要杀死的进程号。再次查看可以看到：
查看gpu使用2

(5) 正确使用GPU

可能最开始使用了：

os.environ["CUDA_VISIBLE_DEVICES"] = "0, 2, 3"

但打开任务管理器查看性能却有：
查看使用性能
查看性能，发现NVIDIA的只有GPU1，所以改成如下：

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

若想直接改到CPU上运行，则可以修改如下：

os.environ["CUDA_VISIBLE_DEVICES"] = "-1"

(6) 换显存

即购买或租用高性能显卡。

(7) Gradient accumulation + Automatic Mixed Precision

该方法请参考：RuntimeError：CUDA Error；CUDA out of memory.

(8) 其他

通过以下命令进一步查看使用的gpu的内存分配情况：

torch.cuda.memory_summary(device=None, abbreviated=False)

通过可读的内存分配summary可以查看报错原因。
另外，迭代地传递数据或者改变网络层的大小也是可以尝试的方法。

总结

我报的是第一类错误，最后使用方法（4）解决了。大家可以根据自己的情况用以上的一种或者多种方法尝试解决。

参考：

关注

47
点赞
踩
71

收藏

觉得还不错? 一键收藏
8
评论
RuntimeError: CUDA out of memory

报错内容：RuntimeError: CUDA out of memory. Tried to allocate 16.00 MiB (GPU 0; 2.00 GiB total capacity; 1.34 GiB already allocated; 14.76 MiB free; 1.38 GiB reserved in total by PyTorch)查资料的过程发现另一种报错：RuntimeError: CUDA out of memory. Tried to allocate 12.50
复制链接

扫一扫

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。