【原创】如何解决python进程被kill掉后GPU显存不释放的问题

今早kill掉服务器里两个python进程,结果发现GPU的显存并没有被释放。在网上查了各种方法,最后搞定。

这是进程被kill掉后显存依旧被占的情景:


莫慌~试试以下几步:

1 重新开一个shell,然后输入: ps aux|grep user_name|grep python。所有该用户下的python程序就会显示出来(很多在用watch命令都不会显示的进程在这里可以看到);

2 然后再一个个用kill命令清理


这样就大功告成了~~~是不是很简单啊

### 查找和终止导致GPU显存占满但利用率低的进程 #### 使用 `nvidia-smi` 工具监控GPU资源 为了有效管理和优化GPU资源,可以利用NVIDIA提供的工具`nvidia-smi`来查看当前系统的GPU使用情况。通过执行命令`nvidia-smi`可以获得关于GPU利用率以及各个进程占用显存量的信息[^2]。 对于那些显存消耗大而实际工作负载却很小(即GPU-util很低)的情况,可以通过如下方法定位具体是哪个应用造成了这样的状况: ```bash watch -n 1 nvidia-smmi ``` 上述指令每秒刷新一次显示结果,便于观察一段时间内的变化趋势;其中仅能看到总的GPU usage percentage,还能看到每个正在运行的应用程序所持有的显存大小[^1]。 #### 定位特定进程ID (PID) 一旦确认存在某个或某些进程长期持有大量显存做多少计算,则需进一步获取这些进程的确切PID以便后续处理。这一步骤可通过组合使用`ps`, `grep` 和其他文本处理工具完成: ```bash ps aux | grep python | grep -v grep | cut -c 9-15 ``` 这条命令列出了所有由Python解释器启动且未被过滤的服务/脚本对应的PID列表。当然也可以根据实际情况调整关键词匹配范围以适应同场景下的需求[^5]。 #### 终止目标进程 当已经锁定了造成问题的具体服务之后就可以采取行动将其停止了。最简单粗暴的方式就是直接发送SIGKILL信号给对应的目标进程: ```bash kill -9 PID ``` 这里需要注意的是,在发出此类强制关闭请求之前最好先尝试更温和的方法比如发送SIGHUP或者SIGTERM信号让应用程序有机会正常退出从而减少意外发生的风险。 另外值得注意的一点是在多线程或多进程中可能存在父子关系的情况下,仅杀死父级可能会连带影响到子级的行为模式甚至自动触发连锁反应使得后者也被清理出去。
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值