显卡显存充足，但是报错：CUDA error: out of memory

Genpock

已于 2023-11-21 19:39:25 修改

阅读量5.2k

点赞数 1

分类专栏： cuda pytorch debug 文章标签：人工智能

于 2023-08-15 20:40:38 首次发布

本文链接：https://blog.csdn.net/qq_36779196/article/details/132306634

版权

cuda 同时被 3 个专栏收录

2 篇文章

订阅专栏

pytorch

1 篇文章

订阅专栏

debug

1 篇文章

订阅专栏

博客描述了显卡显存充足且无进程占用，但仍报CUDA内存不足错误的问题。尝试清理未释放缓存和首次重启device均未奏效，第二次重启device成功解决问题。不过，作者不推荐此方法，并给出了参考链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 问题描述

显卡未显存充足，且无进程占用，使用 nvidia-smi 和 sudo fuser -v /dev/nvidia* 均找不到占用进程。

报错：

RuntimeError: CUDA error: out of memory CUDA kernel errors might be asynchronously reported at some

2. 解决方案

2.1 清理未释放缓存（未奏效）

import torch

# 使用`torch.cuda.empty_cache()`函数释放CUDA失活显存
torch.cuda.empty_cache()

# 查看GPU使用情况
print(torch.cuda.memory_allocated())
print(torch.cuda.memory_reserved())

2.2 重启device（未奏效）

from numba import cuda
device = cuda.get_current_device()
device.reset()
cuda.close()

报错：仍然是OOM问题

2.3 重启device（奏效）！！！

先试用 sudo fuser -v /dev/nvidia* 查看占用程序pid，kill掉之后执行下面的命令重启对应的显卡。

nvidia-smi --gpu-reset -i $gpu_id

2.4 重启解决，但不推荐

参考链接：

1. GPU memory is empty, but CUDA out of memory error occurs - CUDA / CUDA Programming and Performance - NVIDIA Developer Forums

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Genpock

关注关注

1
点赞
踩
25

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

解决RuntimeError: CUDA error: out of memory

CSDN 精品推荐

02-21

2509

显卡被占用：当存在多个显卡时，默认使用 0 号显卡。即使 1 号显卡空闲，但如果 0 号显卡被占用，仍然会导致报错。在使用 PyTorch 中加载模型时，出现 CUDA 错误: out of memory。根据具体情况，采取上述解决办法中的一种或多种来解决 CUDA 错误: out of memory 问题。解决办法：可以让其他显卡不可见，从而使 0 号显卡变为空余的 1 号显卡。CUDA 显存不足：可能是因为当前显卡显存不足。解决办法：考虑更换显存更大的显卡。

Pytorch GPU显存充足却显示out of memory的解决方式

09-18

今天小编就为大家分享一篇Pytorch GPU显存充足却显示out of memory的解决方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

3 条评论您还未登录，请先登录后发表或查看评论

显存充足 RuntimeError: CUDA error: out of memory

AsajuHuishi的博客

11-05

4419

如果平时训练测试都没问题，忽然有一天测试的时候出现RuntimeError: CUDA error: out of memory，很有可能是因为当时训练时使用的卡号和现在使用的卡号不一致。我今天用0卡的时候发现 RuntimeError: CUDA error: out of memory 首先nvidia-smi，发现0卡显存充足。然后查看之前的日志，发现打印的变量在1卡上。这说明我们之前用1卡运行是没有问题的，需要将cuda 1映射到cuda 0。修改测试代码即可，将 checkpoint .

解决：CUDA: Out of Memory

最新发布

m0_74958123的博客

03-28

600

解决：CUDA: Out of Memory

显存充足却提示out of memory(allocated memory try setting max_split_size_mb to avoid fragmentation)

睦生

10-28

1万+

在训练模型的过程中，遇到如下问题：显存有一半以上的空间却仍然报out of memory的错误。本文总结网上的相关解决方案，由于这些方案对本问题均无效，本文经过实践提出了一种新的解决方法。

显存充足，但提示CUDA out of memory

YasmineC的博客

08-12

7502

详细错误如下： RuntimeError: CUDA out of memory. Tried to allocate 32.00 MiB (GPU 1; 23.70 GiB total capacity; 21.69 GiB already allocated; 26.81 MiB free; 22.00 GiB reserved in total by PyTorch) 认真阅读这个错误后，就去查看了GPU 1，发现显存充足：但是这里的显存充足，可能并不是真的充足，我每次查看显存时，都是在程序崩掉

显存充足，但出现CUDA error:out of memory的错误解决

aaazym的博客

11-23

1074

试了网上的一些方法都仍然报这个错误，后来试着把config里的data_num_workers从4改成了0，就可以运行了。我暂时也还不知道是什么原因，之前设置为4的时候是可以跑通的，今天再运行就出错了。

YOLOX训练：显存足够，但依旧CUDA out of memory（Tried to allocate 5.58 GiB，8.00 GiB total capacity，6.40 GiB free）

ELSA001的博客

10-20

2万+

刚刚我尝试训练自己的yolox_s模型，但我batch_size不管改成多少，甚至改成1，都直接报CUDA out of memory，我很苦恼，这里明明显示我的显存是足够的，但是依旧OOM。训练命令如下： (mypytorch) E:\YOLOX>python tools/train.py -f exps/example/yolox_voc/yolox_voc_s_bm.py -d 1 -b 2 --fp16 -o -c weights/yolox_s.pth 我在这里加载了GitHub的预训练

yolov5测试报错：RuntimeError: CUDA out of memory.

猫猫与橙子的博客

08-22

6849

RuntimeError: CUDA out of memory.不一定是现存不足；

Python tensorflow报错： CUDA_ERROR_OUT_OF_MEMORY

qq_34851605的博客

11-20

3527

tensorflow报错： CUDA_ERROR_OUT_OF_MEMORY 这几天在做卷积神经网络的一个项目，遇到了一个问题CUDA_ERROR_OUT_OF_MEMORY。运行代码时前三四百次都运行正常，之后就一直报这个错误（而且第二次、第三次重新运行程序时，报错会提前），但是程序不停止。今天空闲下来，就看一看这个问题。详细信息（因为我的报错解决了，所以从网上找了一个相同的报错信息）： 2017-03-28 23:38:19.485396: E tensorflow/stream_executor/

找不到GPU资源——[显存充足，但是却出现CUDA error:out of memory错误]

热门推荐

椰子奶糖的博客

02-03

3万+

说明: 系统：Centos（Redhat）环境：python3.6+pytorch1.4.0（gpu）+tensorflow2.0.0（cpu） Cuda：9.2 Cudnn：7.0.6？模型 YOLOv3 描述图找不到了，就去隔壁偷了一张（传送）在运行git上的yolov3目标检测项目的时候尝试使用GPU加速，结果爆出CUDA error:out of memory 隔壁说是找不...

记一次显存充足报CUDA out of memory 的错误

一直大萝北的萝北坑

08-23

952

显存充足 CUDA out of memory

显存充足但是CUDA out of Memory报错解决_查看僵尸进程

qq_40349484的博客

09-13

5821

显存充足但是CUDA out of Memory报错解决_查看僵尸进程

显存充足，但是却出现CUDA error:out of memory错误

dengxuan21210547的博客

01-16

6122

之前一开始以为是cuda和cudnn安装错误导致的，所以重装了，但是后来发现重装也出错了。后来重装后的用了一会也出现了问题。确定其实是Tensorflow和pytorch冲突导致的，因为我发现当我同学在0号GPU上运行程序我就会出问题。详见pytorch官方论坛： https://discuss.pytorch.org/t/gpu-is-not-utilized-whil...

【Tensorflow-Error】CUDA_ERROR_OUT_OF_MEMORY: out of memory

luckynote

03-20

1万+

在Tensorflow 训练模型时报错提示： failed to allocate 3.77G (4046333952 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY: out of memory 虽然会报出显存溢出问题，但不影响正常训练，不过笔者还是想知道这个问题是怎么来的。废话不多说，先上session初始化的代码 gpu_optio...

显存充足，pytorch却报错CUDA out of memory？(已解决)

weixin_45914748的博客

11-25

2万+

明明显存充足，但是train的时候总是提示“CUDA out of memory”。注意！这里的allocated是你自己程序所占用的，我之前理解错了，以为是被别人占用的（然而并没有其他进程）。

CUDA Error: out of memory

王叔叔

08-13

3012

0 CUDA Error: out of memory darknet: ./src/cuda.c:36: check_error: Assertion `0’ failed. 已放弃 (核心已转储) 很多博客都相下面这样，说修改测试yolov3时报错：cuda error: out of memory darknet: ./src/cuda.c:36: check_error: Assertion `0’ failed. batch=64 subdivisions=16 为 batch=1 subdiv

CUDA error: out of memory

ayuuuuu的博客

03-07

2636

GPU报错解决方案

RuntimeError: CUDA error: out of memory Killing subprocess 1518087

09-22

RuntimeError: CUDA out of memory错误是由于GPU显存不足导致的。为了解决这个问题，可以尝试以下几个方法： 1. 将batch_size改小：减少每个batch中的样本数量，以减少GPU显存的使用量。 2. 使用item()属性获取...