(LINUX)
GPU进程Ctrl+C后依旧占用GPU显存但nvidia-smi不显示进程号
可以用nvtop查看到进程号,但是kill -9这个进程号没有效果
因为查了较长时间没找到很有效的指定显卡+指定用户的清除效果.
这里只有一个权宜之计.
服务器不建议重启, 接下来的操作当然需要管理员权限, 或者自己的进程出现问题,可以直接使用killall python解决问题.
所以第一步,自己的问题, killall python, 下面的思路一致,只是查找那个用户占用的,杀死他的进程.
第二步, nvtop上得知哪些是正常使用的, 这个需要有平时的观察.
第三步,
sudo fuser -v /dev/nvidia*
找到出问题的显卡号对应的用户名称, 我这里大部分显卡都显示相同, 所以也不一定.
可以看到某个用户停止使用了,但依旧有进程占用. 这些都是异常进程, 按照本文的粗暴方法,就直接杀掉. (如果没有把握,找到用户让他自己killall python)
第四步,
ps -ef | grep [这里填写异常用户名] | grep ‘python’
确认和第三步找到的进程一致,
第五步,
这一步执行后会造成可能杀错进程的问题, 一定注意!!!
ps -ef | grep [这里填写异常用户名] | grep ‘python’ | awk ‘{ print $2 }’ | sudo xargs kill -9
第六步,
查看nvidia-smi或者nvtop来确保整个过程完成无误.