Machine Learning-CUDA out of memory (training)解决

QuanHaHQuan

已于 2023-03-29 10:22:24 修改

阅读量1.1k

点赞数

分类专栏： Bug Free 文章标签：机器学习 pytorch 深度学习人工智能

于 2022-05-03 15:14:45 首次发布

本文链接：https://blog.csdn.net/c_h_q_/article/details/124555164

版权

Bug Free 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

有关CUDA,Cudnn, Pytorch, Tensorflow, Linux等等的环境配置请看这个专栏：

Envs set up

那么今天就来说一下，如果在使用Pytorch训练的过程中，出现报错CUDA out of memory我们应该怎么办嘞？

1. 显卡

首先，我们要先查看一下自己电脑上的显卡，如果是windows用户，可以直接进入设备管理器，选择显示设备进行查询

1.1 显卡性能

首先是显卡的性能，简单来说，就是你的电脑上起码得有个够用的显卡才可以，关于显卡的具体性能可以看这个大哥的帖子：
深度学习常用显卡介绍
比如说我电脑上的mx250，简单来说就是一个凑数的显卡，爆显存已经是日常了。

1.2 nvidia-smi

好，那么如果你的电脑上的显卡经过查询，基本符合上面帖子的要求计算能力大于5或者是至少有个4G显存，那么请接着往下看。
使用nvidia-smi进行查询，关于这条命令的详细解释请看这里
nvidia-smi命令详解
在这里你可以看到显卡的使用情况

2. 几种可能的解决办法

调小你的batch_size或者换一张显存更大的显卡
在报错的地方前面释放无关的内存：

if hasattr(torch.cuda, 'empty_cache'):
	torch.cuda.empty_cache()

上面两种方法参考自这边博客RuntimeError: CUDA out of memory.Tried to allocate 20.00 MiB
那么如果上面的两个办法没有解决你的问题的话，请接着往下看

3. 如果是服务器或者是多张显卡

那么如果你是在服务器上运行你的代码，并且上面的办法对你没用的话，那么有可能你是下面这个问题：
什么问题嘞？
我举个例子来说哈
比如这个服务器上有两张显卡，分别是cuda:0和cuda:1
而这个时候有人正在用cuda:0
那么如果你的代码中有类似：

data.cuda()
或者是
device = torch.device('cuda:0' if torch.cuda.is_available else 'cpu')
data.to(device)
再或者
device_ids = [0, 1]
data = torch.nn.DataParallel(data, device_ids = device_ids)

就会报错了
什么意思？
简单来说，就是因为现在cuda:0，也就是第一张显卡正在被别人使用，所以你一用就会报错

.cuda()这个方法是默认把数据移动到第一张显卡也就是cuda:0上的，所以 报错！
第二种代码会把你的device设置为cuda:0，接下来把数据挪过去，所以 报错！
第三种代码相当于会把数据平分之后，挪到devices_ids上的所有显卡中，所以报错！
不过在这种情况下，加入你有四张显卡，而只有第一张在被别人使用，如果你把devices_id设置为[1, 2, 3]就不会报错
因为并没有使用第一张显卡
那么，针对上面的问题，解决方法是

device = torch.device('cuda:1')
data.to(device)
或者把device设置为任何一张空闲的显卡

那么，这是在训练过程中出现CUDA out of memory的办法，如果是在加载模型的时候报错，请看这里：
Machine Learning-CUDA out of memory (torch.load())解决

QuanHaHQuan

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning-CUDA out of memory (training)解决

Machine Learning-CUDA out of memory (training)解决
复制链接

扫一扫

专栏目录