模型训练或测试时候显存爆掉(RuntimeError:CUDA out of memory)的几种可能及解决方案

1. 真的显存不足,这种可以通过从单卡变为在多卡上面运行解决

这种时候可以使用nvidia-smi查看一下显卡情况,如下

在这里插入图片描述
或者改一下num_of_worker:
在这里插入图片描述
改小试试看,如果不行继续排查

2. cuda和pytorch的版本不匹配

注意这里也有个小坑!
30系显卡不能装cuda11以前的!

30系显卡架构换了,所以不能用之前的驱动,参考目录:https://docs.nvidia.com/deeplearning/cudnn/support-matrix/index.html,从参考目录中可以看见,cuda10系列不支持ampere架构的显卡

3. 测试的时候爆显存有可能是忘记设置no_grad, 示例代码如下:

当时的报错:
在这里插入图片描述

仅加model.eval()还是会有会有影响(在我使用LeNet的时候显存是不会爆炸的,使用Resnet就会,所以以防万一还是加上with torch.no_grad()

# 此处是test函数内部,大家加载自己定义的test的迭代器外部即可
model.eval()
with torch.no_grad():
        for idx, 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值