【已解决】探究CUDA out of memory背后原因，如何释放GPU显存？

最新推荐文章于 2024-08-17 22:11:19 发布

2401_83817122

最新推荐文章于 2024-08-17 22:11:19 发布

阅读量1.1k

点赞数 26

分类专栏：程序员文章标签： pytorch 深度学习人工智能

原文链接：https://blog.csdn.net/FRIGIDWINTER/article/details/130033162

版权

本文探讨了CUDA中GPU显存占用的原因，包括固有显存、激活与失活机制。通过实验展示了如何手动释放显存，以及在深度学习中管理GPU资源的常见做法。了解这些知识有助于优化GPU利用率。

摘要由CSDN通过智能技术生成

2 问题探索

2.1 CUDA固有显存

在实验开始前，先清空环境，终端输入nvidia-smi

在这里插入图片描述
接下来向GPU存入一个小的张量

import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
torch.randn((2, 3), device=device)

占用显存情况如下，共计448M

在这里插入图片描述
而当我们增大张量的尺寸，例如

torch.randn((200, 300, 200, 20), device=device)

此时GPU占用也随之上升，共计1362M

在这里插入图片描述

这表明：GPU显存占用率和存入的数据尺寸成正相关，越大的数据占用显存越多，这其实是废话，但是把这句话反过来：越小的数据占用显存越小吗？做个实验

torch.randn((1, 1), device=device)

仍然占用448M

在这里插入图片描述
事实上，这是因为CUDA运行时，其固件会占用一定的显存，在本机软硬件环境下是448M，不同的CUDA版本或显卡型号固件显存不同。换言之，

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2401_83817122

关注关注

26
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【已解决】探究CUDA out of memory背后原因，2024年最新web就业方向

2401_84181253的博客

04-08

844

关于CUDA GPU显存管理GPU显存占用率和存入的数据尺寸成正相关，越大的数据占用显存越多只要使用了GPU，就至少会占xxx M的显存，且这部分显存无法被释放当一块内存不再被变量所引用时，这块内存就由激活内存转为失活内存，但它仍然存在于这个数据队列中当数据队列达到某个阈值时，CUDA会触发垃圾回收机制，清理失活内存运行可以手动清理失活内存那么根据上述理论，就可以得到对应的问题解决方案调小batch_size本质上是防止GPU数据队列向显存申请的空间大于显存本身。

解决大模型训练中的CUDA out of memory

weixin_52147110的博客

06-14

723

首先查看了训练 SFTTrainer 中的精度（sft_trainer.py 官方文档 line253）如下，说明只有当模型是4bit且不是 shared QLoRA 时，才会调用 peft_module_casting_to_bf16 函数，将PEFT模块转换为bf16（bfloat16）精度。该模型符合要求，因此去修改peft模块中的参数 bf16=False，但是还是报错，后来逐步检查发现是在模型训练初始阶段设置了bf16，将其改为float16就可以了。，于是尝试做了修改并实现了成功。

参与评论您还未登录，请先登录后发表或查看评论

CUDA Out of Memory ：CUDA内存不足的完美解决方法

最新发布

沉淀、分享、成长，让自己和他人都能有所收获！

08-17

2万+

CUDA Out of Memory 🛑：CUDA内存不足的完美解决方法摘要 📝引言 🌟什么是 CUDA Out of Memory 错误？🤔基本定义常见场景常见的CUDA内存不足场景及解决方案 🔍1. 模型过大导致显存不足2. 批量数据过大3. 显存没有释放4. 多线程或异步操作占用大量显存深入案例分析：如何避免和处理CUDA内存不足 🛠️1. 代码优化示例2. 累积梯度示例🤔 QA环节小结 📚表格总结 📊未来展望 🚀参考资料 📚博主默语带您 Go to New World.✍个人主页——

如何释放GPU显存？CUDA out of memory 如何解决

michael_quan2013的博客

07-19

7881

但只能释放失活显存，即通过手动释放后，1中的例子显存占用率为1/10。调用 torch 的功能可以实现显存释放 torch.cuda.empty_cache()，(2) 如果又来个稍小的数据进行推理，推理时需占用。(1) 来一个数据并进行推理，推理结束后占用。释放掉并提供给其进行推理，推理结束后又产生。(3) 如果又来个稍大的数据进行推理，需要。失活内存，CUDA会把2G失活内存中的。内存供其推理，推理结束后共占用。失活内存，则此时的占用率仍是。失活内存，推理结束后仍占用。失活内存，此时占用率则为。

pytorch模型提示超出内存RuntimeError: CUDA out of memory.

01-20

跑模型时出现RuntimeError: CUDA out of memory.错误查阅了许多相关内容，原因是：GPU显存内存不够简单总结一下解决方法：将batch_size改小。取torch变量标量值时使用item()属性。可以在测试阶段添加如下代码： with torch.no_grad(): # 停止自动反向计算梯度参考： https://wisdomai.xyz/tool/pytorch/archives/2301 https://ptorch.com/news/160.html 作者：菜叶儿掉啦

GPU释放显存

flyingluohaipeng的博客

09-12

8224

查看gpu使用情况，已经如何释放内存

CUDA out of memory（然鹅明明还有空间）

联邦学习小白

09-16

1万+

模型跑完想再跑一遍的时候居然给我报“CUDA out of memory”，很明显，我的显卡虽然菜，但起码还是可以跑的，毕竟刚跑完，那就可能是python在运行完以后没有释放资源，导致GPU的内存满了。如果是这样的话，那解决的方法就很简单了，直接把进程杀死就行。首先在C:\Program Files\NVIDIA Corporation\NVSMI位置打开命令行，然后输入nvidia-smi（也可以用nvidia-smi.exe -l 1，每秒更新CUDA使用情况），显示当前gpu的使用情况如下：显

CUDA out of memory

qq_44853023的博客

12-19

498

如果都没有空的卡，可以根据进程号（PID）检查正在跑的占用显存比较多的程序，有可能是僵尸程序，需要kill掉。首先在终端输入：ps -aux | grep 2809712（PID号）显示不是我跑的程序（因为我们实验室服务器很多人公用），就不能kill。

Pytorch GPU显存充足却显示out of memory的解决方式

09-18

综上所述，解决PyTorch GPU显存充足却报出“out of memory”的问题需要从多个角度进行排查和优化，包括模型结构、批处理大小、并行计算、版本更新、内存管理和监控等方面。通过这些方法，通常能够有效地避免或解决...

cuda out of memory gpu还有空间_深度学习模型训练时如何优化GPU显存？（附TF和Paddle优化方式）...

weixin_39896256的博客

11-21

854

关注&置顶“Charlotte数据挖掘”每日9:00，干货速递！不知道大家在训练深度学习模型时有没有遇见过这种情况：设置的batch_size明明不大，譬如32或者16，但是怎么一跑模型，GPU的显存就占满了呢？原来我使用Tensorflow的训练的时候发现是这样，后来我使用PaddlePaddle的时候也是这样，我以为是框架本身出了问题，但是仔细研究后才发现，其实这两种框架都是...

CUDA error: out of memory

qq_37199669的博客

10-10

166

The best way is to find the process engaging gpu memory and kill it: find the PID of python process from: nvidia-smi copy the PID and kill it by: sudo kill -9 pid

CUDA out of memory.(已解决）

热门推荐

weixin_43398590的博客

04-08

15万+

CUDA out of memory.(已解决）有时候我们会遇到明明显存够用却显示CUDA out of memory，这时我们就要看看是什么进程占用了我们的GPU。按住键盘上的Windows小旗子+R在弹出的框里输入cmd，进入控制台。 nvidia-smi 这个命令可以查看GPU的使用情况，和占用GPU资源的程序。我们看到python再运行完以后没有释放资源导致GPU的内存满了。可以...

RuntimeError: CUDA out of memory.【多种场景下的解决方案】

创作高质量博文，分享知识，共同进步！

02-20

4089

🚀 探索CUDA内存溢出问题的多种解决方案！🔍 🌵 在深度学习和机器学习的旅程中，你是否曾遇到过“CUDA out of memory”的错误信息，让你的项目突然停滞不前？😵 不用担心，我们为你准备了多种场景下的解决方案！ 💡 无论是首次运行完整项目时的困惑，还是前几次执行顺利后突然遭遇的报错，我们都提供了具体的解决方法。无论是切换GPU，优化代码结构，还是使用显存分析工具，我们都有详细的步骤和提示。

GPU显存释放

小陈说CV的博客

06-20

555

有时训久了，会报错CUDA：out of memory 查看GPU使用情况 $ nvidia-smi 逐个kill掉表格中的PID $ kill -9 PID

Linux释放GPU显存

cp3

04-04

2万+

用tensorflow做实验，有时候会由于某种原因，在关闭程序后，GPU的显存仍处于被占用的状态，而用nvidia-smi查不到对应的进程pid. 这时释放显存的方法： sudo fuser /dev/nvidia* 该命令会显示所有占用nvidia设备的进程pid，将这些pid逐个kill掉： kill -9 pid 发现显存已经被释放。不过，造成这种显存不能被释放现象的原因尚不清...

Cuda out of memory

qq_42371462的博客

03-21

1494

前言我一定要说下我这个心酸的历史啊！！！事情是这样的，我通过东拼西凑得到了一个模型，在一个数据集上一跑，哟，效果还不错，磨刀霍霍准备在其它数据集上试试效果啊。结果你猜怎么着，呵，out of memory。接下来就是我心酸的解决历史了。问题所有的前提都是基于这个out of memory的数据集哈。我是训练过程中没有问题，一验证就out of memory.首先我当然是上网查询原因啦，很多人都说用下面的方法：将模型改为eval()模式并且使用with torch.no_grad(): model

RuntimeError: CUDA out of memory 解决办法怎么清理GPU内存

05-15

"RuntimeError: CUDA out of memory" 错误通常是由于GPU内存不足导致的。以下是一些可能的解决办法： 1. 减少模型的batch size。 2. 减少模型的网络结构，例如使用更小的模型或者减少层数。 3. 使用更高效的算法或...