模型训练或测试时候显存爆掉（RuntimeError：CUDA out of memory）的几种可能及解决方案

最新推荐文章于 2025-03-28 15:28:08 发布

洗千帆，还少年

最新推荐文章于 2025-03-28 15:28:08 发布

阅读量1.7w

点赞数 7

分类专栏： debug合集文章标签：深度学习 pytorch python

本文链接：https://blog.csdn.net/qq_45040216/article/details/126603593

版权

1. 真的显存不足，这种可以通过从单卡变为在多卡上面运行解决

这种时候可以使用nvidia-smi查看一下显卡情况，如下

在这里插入图片描述
或者改一下num_of_worker:

改小试试看，如果不行继续排查

2. cuda和pytorch的版本不匹配

注意这里也有个小坑！
30系显卡不能装cuda11以前的！！

30系显卡架构换了，所以不能用之前的驱动，参考目录:https://docs.nvidia.com/deeplearning/cudnn/support-matrix/index.html，从参考目录中可以看见，cuda10系列不支持ampere架构的显卡

3. 测试的时候爆显存有可能是忘记设置no_grad, 示例代码如下：

当时的报错：
在这里插入图片描述

仅加model.eval()还是会有会有影响（在我使用LeNet的时候显存是不会爆炸的，使用Resnet就会，所以以防万一还是加上with torch.no_grad()）

# 此处是test函数内部，大家加载自己定义的test的迭代器外部即可
model.eval()
with torch.no_grad():
        for idx,

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

洗千帆，还少年

关注关注

7
点赞
踩
47

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

一文解决 RuntimeError: CUDA out of memory. 全网最全

m0_50502579的博客

07-29

9万+

RuntimeError: CUDA out of memory. Tried to allocate 50.00 MiB (GPU 0; 4.00 GiB total capacity; 682.90 MiB already allocated; 1.62 GiB free; 768.00 MiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to

RuntimeError: CUDA out of memory. Tried to allocate ... MiB & Pytorch模型测试时显存一直上升导致爆显存

qq_44660426的博客

03-15

2910

RuntimeError: CUDA out of memory. Tried to allocate ... MiB & Pytorch模型测试时显存一直上升导致爆显存

1 条评论您还未登录，请先登录后发表或查看评论

pytorch训练时显存溢出

qq_45023582的博客

03-09

2331

训练时训练次数增加发生显存爆炸

pytorch: 四种方法解决RuntimeError: CUDA out of memory. Tried to allocate ... MiB

最新发布

m0_74958123的博客

03-28

645

解决：CUDA: Out of Memory

解决Pytorch 训练与测试时爆显存(out of memory)的问题

09-18

今天小编就为大家分享一篇解决Pytorch 训练与测试时爆显存(out of memory)的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Pytorch 训练与测试时爆显存(out of memory)的一个解决方案

xiaoxifei的专栏

11-23

6万+

Pytorch 训练时有时候会因为加载的东西过多而爆显存，有些时候这种情况还可以使用cuda的清理技术进行修整，当然如果模型实在太大，那也没办法。使用torch.cuda.empty_cache()删除一些不需要的变量代码示例如下： try: output = model(input) except RuntimeError as exception: if "out of...

训练模型时候显存爆炸的一种可能性以及解决办法

qq_38331273的博客

04-29

3518

转载：https://wstchhwp.blog.csdn.net/article/details/108405102 模型训练的时候，爆显存了，可以调整batch，对数据进行crop等等操作。今天发现一个模型，训练ok，每次测试的时候爆显存。开始以为是因为用了全图（1920x1080略大）进行inference，这是一方面。但后来发现忘了用with torch.no_grad():这导致模型运算的时候不能释放显存（记录了梯度信息），所以显存巨大。加了之后，用了不过3G显存就够了。确实inference不

BUG:解决跑AI模型(非大模型)爆内存问题

还没入门的程序员的博客

03-23

1107

提供了可能解决爆cpu内存问题和爆GPU内存问题的解法

pytorch模型提示超出内存RuntimeError: CUDA out of memory.

01-20

跑模型时出现RuntimeError: CUDA out of memory.错误查阅了许多相关内容，原因是：GPU显存内存不够简单总结一下解决方法：将batch_size改小。取torch变量标量值时使用item()属性。可以在测试阶段添加如下代码：...

【Pytorch】RuntimeError: CUDA out of memory 问题解决

你在说什么的博客

10-19

4万+

情况一：显示free的内存足够，但是仍然报CUDA out of memory错误。如（仅举例）：RuntimeError: CUDA out of memory. Tried to allocate 26.00 MiB (GPU 0; 10.73 GiB total capacity; 9.55 GiB already allocated; 199 MiB free; 19.44 MiB cached) 情况二：报错 RuntimeError: cuDNN error: CUDNN_STATUS_I

不优雅地解决pytorch模型测试阶段显存溢出问题

Niatruc的博客

07-24

3064

RuntimeError: CUDA out of memory. Tried to allocate 1.54 GiB (GPU 0; 7.79 GiB total capacity; 4.29 GiB already allocated; 1.29 GiB free; 31.68 MiB cached)

记pytorch的大坑之训练的显存不断攀升

xinong123456123的博客

10-26

1964

pytorch显存爆炸，loss.item()

解决pytorch训练时的显存占用递增的问题

weixin_45928096的博客

01-15

9072

在pytorch训练过程中突然out of memory。解决方法： 1. 设置 torch.no_grad(): 2. loss.item() 3. 在代码中添加以下两行： torch.backends.cudnn.enabled = True torch.backends.cudnn.benchmark = True 4. del操作后再加上torch.cuda.empty_cache() 补充：Pytorch显存不断增长问题的解决思路

创建Model时，一定要设置eval_network，导致eval_network占用一定显存

weixin_45666880的博客

09-25

107

***************************************************解答*****************************************************在第一个epoch，显存占用是13GB，经过一次eval之后，显存占用为19GB，之后一直保持19GB。并且还发现，训练的loss在第一个epoch当中不会下降，在第二个epoch刚开始时骤降，感觉训练过程中并没有更新参数。目前MindSpore已提供函数式编程，可以不用model封装。

【踩坑】深度学习 Torch 爆显存的原因（显存不够用等问题）

weixin_37879562的博客

11-04

3万+

简介在深度学习过程中，使用显卡的情况主要有两个过程：一、网络模型训练过程；二、网络模型测试过程。在这两个过程中，都可能存在爆显存或者爆内存的情况。在编程过程中，有很多同学应该都遇到这种情况，本文提供了针对这些问题的解决方案供大家参考。正常情况下无论是训练还是测试，显卡占用的显存资源不会大范围波动。情况1 训练过程中爆显存在训练过程中，如果出现显存不够用的情况，可以先分析具体什么情况。（1）如果瞬间爆掉显存，很大可能是因为显卡加载模型并载入训...

关于模型训练中显存占用过大的或直接报显存爆炸的解决方法

阿杜的博客

04-03

6688

模型训练显存爆炸解决方法在模型训练中，应该理解梯度、反向传播、图层、显存这些概念，在模型训练过程中，一般会分为训练+验证+测试，在这些过程中，一般在训练过程中会比较占用显存，因为涉及到反向传播，需要大量的梯度，这些数据又存放在显存中。在今天模型的训练中，突然发现可以训练，但是在验证过程中出现显存爆炸炸，提示我显存不足，我就很纳闷，一直在找问题，终于发现了：在我的训练代码中： for epoch in range(0, epoch_num): net.train()

深度学习训练时间过长，GPU显存占用很多但是占用率过低问题

ShakalakaPHD的博客

11-25

1万+

深度学习训练时间过长GPU占用率过低问题配置环境问题描述调参结果修改num_workers结论附录配置环境操作系统：Ubuntu20.04 CUDA版本：10.2 Pytorch版本：1.6.0 TorchVision版本：0.7.0 mmdet版本：2.5.0 mmcv版本：1.1.5 IDE：PyCharm 硬件：RTX2070S*2 问题描述在训练YOLOv4tiny时发现GPU占用率非常低，并且经常跳到0，导致训练速度很慢为此博主对几个时间点就行设置，打印出来加载数据花费的时间和真正网

模型推理runtimeerror: cuda out of memory

09-17

模型推理中出现"RuntimeError: CUDA out of memory"错误是因为在GPU上使用的显存不足。这个错误通常发生在模型的输入数据量过大或模型占用的显存资源过多时。解决这个问题可以采用以下方法： 1. 减少批处理大小：...