进程Kill杀死后GPU显存没有释放仍然被占用(僵尸进程)

最新推荐文章于 2025-02-27 14:58:01 发布

季冬一四

最新推荐文章于 2025-02-27 14:58:01 发布

阅读量1.1w

点赞数 22

文章标签： paddle ubuntu GPU 显存占用杀死进程

本文链接：https://blog.csdn.net/qq_37591986/article/details/131118109

版权

清理占用GPU显存的僵尸进程

- 概要
- Talk is cheap. Show me the code

概要

在基于Linux(Ubuntu)系统进行开发时。程序调用GPU进行运算（如深度学习框架，尤其是Paddle框架），若进程非正常终止，最常见是在进程运行中使用Ctrl+C杀死进程，进程结束后会留下僵尸进程，使用kill -9 pid指令提示 No such process。

网上很多博客介绍使用fuser -v /dev/nvidia*查看PID，但这个指令返回的结果只有pid，没有其他信息，然后手动复制，一个一个尝试。

这样操作流程比较费事，每次都要折腾挺久，所以我加了个流程，自动清理。

Talk is cheap. Show me the code

具体指令如下：

fuser -v /dev/nvidia0 | awk '{print $0}' |  xargs kill -9

这行指令能够自动清理编号为0的显卡上当前用户的所有调用GPU进程，注意使用该指令会清空所有程序。清理第二块卡将0改成1,以此类推。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

季冬一四

关注关注

22
点赞
踩
36

收藏

觉得还不错? 一键收藏
8
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Linux】程序已经运行完了，但是占着GPU，没有释放内存怎么办——kill -9 PID

weixin_44502754的博客

05-21

1093

【Linux】程序已经运行完了，但是占着GPU，没有释放内存怎么办——kill -9 PID

记录 | ubuntu程序终止，显卡仍然被占用问题

极智视界

01-28

752

记录 | ubuntu程序终止，显卡仍然被占用问题

8 条评论您还未登录，请先登录后发表或查看评论

解决pytorch GPU 计算过程中出现内存耗尽的问题

09-18

今天小编就为大家分享一篇解决pytorch GPU 计算过程中出现内存耗尽的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

linux 下GPU的僵尸进程

最新发布

锁我喉是吧

02-27

250

nvidia-smi发现GPU的显存是满的，但是显示出来的进程只有两个，一共才占用2G，怎么也查不出来其他进程占用

Linux服务器进程退出了，但是显存占用问题的解决

absence521的博客

03-13

947

刚刚在用租的服务器train的时候，一直显示 out of memory，但是并没有程序在跑，搜索了一下回忆起来之前遇到过这种问题，是自己看不见进程。再次查看显存，会发现已经清空。查看所有的进程与PID。

ubuntu】GPU进程kill后，显存未释放（杀死僵尸进程）

开飞机的小毛驴儿

12-11

412

然后通过以下命令逐一kill僵尸进程。sudo kill -9 进程。通过以下命令查看僵尸进程。一定要进入管理员模式！

yolov5-master训练陷入内核死循环

weixin_43337201的博客

09-03

2530

项目场景：入职第三个月的第一天搞崩公司服务器近期yolov5模型（参考github地址：https://github.com/ultralytics/yolov5）比较火，准备上手更新一下之前用v3做的项目，处理过数据格式问题后，python train.py --img-size 640 --batch-size 16 --epochs 300 --data ./data/score.yaml --cfg ./models/yolov5x.yaml --weights weights/yolov5x.

终止进程后，GPU显存仍被占用问题： kill -9彻底杀死进程 | ps aux|grep python | 怎么确认僵尸进程？

weixin_47700137的博客

11-12

4816

问题描述：在Linux终端把进程终止后，发现显存没有被释放出来！

【服务器使用】Linux系统下使用kill命令杀死进程后仍占用GPU显存

phoebeXD的博客

10-26

2989

在服务器上跑深度学习模型时，使用kill命令杀死进程后，使用nvidia-smi命令发现Processes是消失了，但显存仍有一部分被占用。本来以为可能是有僵尸进程，后来分析应该是有子进程的内存没有释放掉？

方法-进程已经杀死但是显存还未释放怎么办(ubuntu)

zwhdldz的博客

11-30

1351

训练程序ctrl+c后,依然显示显存占用。##查看后台的训练进程。

GPU显存不释放

HeavenWalker

04-08

1723

https://www.jianshu.com/p/0d8ea6ca332a

Linux——杀死“僵尸”进程及解决无进程但显存占用问题

WangJialin

05-12

2542

Linux进程PID变为短横线以及解决无进程但显存占用问题

pytorch在kill主进程后无法释放显存的问题

georgeandgeorge的博客

05-16

4525

同事写的pytorch程序最近有点奇怪，程序运行结束/强制杀死后，占用的显存没能正常释放。这是怎么一回事呢？在pytorch论坛搜到以下的信息：https://discuss.pytorch.org/t/pytorch-doesnt-free-gpus-memory-of-it-gets-aborted-due-to-out-of-memory-error/13775/13 就是说：多进程模式下的pytorch程序有个别版本会有这个bug：已经kill了主进程，可是子进程却没有kill掉，成了僵尸

Linux|kill killall 杀不掉的进程

njuptalex的博客

01-04

2762

问题：有进程占用显存，但是通过kill -9 PID杀不掉，进程Running态应该是等不到数据导致阻塞。 ➜ ~ alias pg pg='ps aux | grep $1' ➜ ~ pg 22109 chenkan+ 10350 0.0 0.0 112680 992 pts/24 S+ 21:33 0:00 grep --color=auto --exclude-dir=.bzr --exclude-dir=CVS --exclude-dir=.git --exclude-d

操作系统——Linux进程概念、控制及相关知识的理解

wjyyywarm的博客

01-27

816

在学习Linux的过程中，进程这一概念，理解起来是有一定难度的，知识点也比较多，但这一部分知识点又相当重要。因此专门写一篇文章，整理一下Linux进程的知识，分享的同时，也方便后面复习。

【原创】如何解决python进程被kill掉后GPU显存不释放的问题

热门推荐

jzrita的博客

06-17

2万+

今早kill掉服务器里两个python进程，结果发现GPU的显存并没有被释放。在网上查了各种方法，最后搞定。这是进程被kill掉后显存依旧被占的情景：莫慌~试试以下几步：1 重新开一个shell，然后输入： ps aux|grep user_name|grep python。所有该用户下的python程序就会显示出来（很多在用watch命令都不会显示的进程在这里可以看到）；2 然后再一个个用kil...

解决GPU 显存未能完全释放

不忘初心，方得始终

06-25

1515

算法同学反馈显存未能完全释放。

debug笔记：gpustat显示没有进程运行，但是GPU显存被占用

qq_40206371的博客

11-15

465

使用gpustat之后，虽然显示除了gpu5之外别的都没有进程，但是GPU显存却被占用了。

如何释放GPU显存？CUDA out of memory 如何解决

michael_quan2013的博客

07-19

9574

但只能释放失活显存，即通过手动释放后，1中的例子显存占用率为1/10。调用 torch 的功能可以实现显存释放 torch.cuda.empty_cache()，(2) 如果又来个稍小的数据进行推理，推理时需占用。(1) 来一个数据并进行推理，推理结束后占用。释放掉并提供给其进行推理，推理结束后又产生。(3) 如果又来个稍大的数据进行推理，需要。失活内存，CUDA会把2G失活内存中的。内存供其推理，推理结束后共占用。失活内存，则此时的占用率仍是。失活内存，推理结束后仍占用。失活内存，此时占用率则为。

gpu out of memory

12-31

### 解决GPU内存不足的方法当遇到GPU内存不足的问题时，可以采取多种措施来缓解或彻底解决问题。以下是几种常见且有效的策略： #### 优化模型结构通过简化网络架构减少参数量，从而降低显存占用。例如，减少卷积层的数量或调整滤波器尺寸。 #### 调整批量大小减小输入数据批次(batch size)，这可以直接影响到每轮迭代所需的临时存储空间需求[^2]。 ```python batch_size = 8 # 原始设置可能过高 model.train() for data, target in dataloader: output = model(data) ``` #### 使用混合精度训练采用FP16半精度浮点数代替传统的FP32全精度计算方式，在不影响最终效果的前提下节省约一半的显存量并加速运算过程。 ```python from torch.cuda import amp scaler = amp.GradScaler() with autocast(): outputs = net(inputs) loss = criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() ``` #### 清理未释放资源确保之前运行的任务已经完全结束并且清理掉不再使用的变量，防止残留对象占据不必要的显存份额。对于Windows环境下频繁出现OOM(out-of-memory)情况，可能是由于旧有进程未能及时终止所致[^1]。可以通过命令行工具`nvidia-smi`查看当前活跃于GPU上的程序列表，并手动停止那些不需要继续执行的服务；或者编写脚本来自动检测和清除僵尸进程。 ```bash !nvidia-smi # 找到对应的PID号后强制关闭特定应用 !kill -9 PID_NUMBER ```