模型训练或测试时候显存爆掉(RuntimeError:CUDA out of memory)的几种可能及解决方案

1. 真的显存不足,这种可以通过从单卡变为在多卡上面运行解决

这种时候可以使用nvidia-smi查看一下显卡情况,如下

在这里插入图片描述
或者改一下num_of_worker:
在这里插入图片描述
改小试试看,如果不行继续排查

2. cuda和pytorch的版本不匹配

注意这里也有个小坑!
30系显卡不能装cuda11以前的!

30系显卡架构换了,所以不能用之前的驱动,参考目录:https://docs.nvidia.com/deeplearning/cudnn/support-matrix/index.html,从参考目录中可以看见,cuda10系列不支持ampere架构的显卡

3. 测试的时候爆显存有可能是忘记设置no_grad, 示例代码如下:

当时的报错:
在这里插入图片描述

仅加model.eval()还是会有会有影响(在我使用LeNet的时候显存是不会爆炸的,使用Resnet就会,所以以防万一还是加上with torch.no_grad()

# 此处是test函数内部,大家加载自己定义的test的迭代器外部即可
model.eval()
with torch.no_grad():
        for idx, (data, target) in enumerate(data_loader):
            if args.gpu != -1:
                data, target = data.to(args.device), target.to(args.device)
            log_probs = net_g(data)
            probs.append(log_probs)
            
            # sum up batch loss
            test_loss += F.cross_entropy(log_probs, target, reduction='sum').item()
            # get the index of the max log-probability
            y_pred = log_probs.data.max(1, keepdim=True)[1]
            correct += y_pred.eq(target.data.view_as(y_pred)).long().cpu().sum()

4. 训练的时候爆内存(这个我没有自己使用过)

Pytorch 训练时有时候会因为加载的东西过多而爆显存,有些时候这种情况还可以使用cuda的清理技术进行修整,当然如果模型实在太大,那也没办法。

使用torch.cuda.empty_cache()删除一些不需要的变量代码示例如下:
参考:https://blog.csdn.net/xiaoxifei/article/details/84377204

try:
    output = model(input)
except RuntimeError as exception:
    if "out of memory" in str(exception):
        print("WARNING: out of memory")
        if hasattr(torch.cuda, 'empty_cache'):
            torch.cuda.empty_cache()
    else:
		raise exception

附录:

如果模型过大,

  • 首先可以查一下模型里面有写经典的block是不是pytorch里面自带的有,比如ResNet结构,可以从pytorch自带的里面截取你需要的部分,我曾经的实验结果表明pytorch对于这些基本模型是有底层加速的
  • 可以降低下数据精度,比如从float32降半精度,使用这样的代码model.half()来申明半精度;这样也会减少些内存,我看你的GPU跑的情况使用半精度

如果想要模型运行时的显存监控:可以参考以下链接
https://oldpan.me/archives/pytorch-gpu-memory-usage-track

如果想要检测模型loss异常nan的情况可以使用:

from torch import autograd
with autograd.detect_anomaly():
    inp = torch.rand(10, 10, requires_grad=True)
    out = net(inp)
    out.backward()
  • 7
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
模型推理中出现"RuntimeError: CUDA out of memory"错误是因为在GPU上使用的显存不足。这个错误通常发生在模型的输入数据量过大或模型占用的显存资源过多时。 解决这个问题可以采用以下方法: 1. 减少批处理大小:可以通过减少每次推理时的图像批处理大小来减少内存消耗。较小的批处理大小会减少每个批处理所需的显存量。 2. 减少模型的参数量:如果模型的参数量过大,可以尝试减少参数量来缓解显存不足的问题。可以通过减少模型的深度、宽度或者使用降低维度的技术(如降低卷积核的尺寸)来减少参数量。 3. 使用更高效的模型:可以考虑使用比原始模型更加轻量级和高效的模型结构。例如,可以使用MobileNet、EfficientNet等模型来代替较重的ResNet、VGG等模型。 4. 降低精度:可以尝试将模型的参数精度从32位浮点数降低为16位浮点数,以减少显存的使用量。这通常不会对模型的性能产生显著的影响,但会大幅度减少显存的使用。 5. 使用更大的显存:如果以上方法无法解决问题,可以考虑更换具有更大显存容量的GPU设备来运行模型推理。 总之,修复"RuntimeError: CUDA out of memory"错误的主要思路是通过减少模型参数量、降低精度、优化模型结构或减少输入数据量来减少GPU显存的使用。根据具体问题情况选择适当的解决方法,以确保模型能够在GPU上正常运行。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值