我们正在使用TensorFlow或pytorch写程序的时候,有时会在控制台将程序杀死,但是有时候程序已经结束了,用nvidia-smi也看到程序已经停止,但是GPU还占着内存没有释放。
这是因为,在使用pytorch设置多线程(threads)进行数据读取(data_loader)时,其实是假的多线程,而是开了N个子进行进行模拟多线程工作,所以在程序跑完或者中途kill掉主进程的话,子进程的GPU显存并不会被释放掉,需要手动一个一个kill掉
具体方法描述如下:
1、先关闭掉ssh(或shell)窗后,退出重新邓丽
2 查看运行在gpu上的所有程序:
fuser -v /dev/nvidia*
3 kill掉所有的僵尸进程(僵尸进程是连号的)
执行fuser -v /dev/nvidia* 可以发现僵尸进程,查看具体这个进程调用GPU的情况使用 pmap -d PID
强行关掉所有当前并未执行的僵尸进程
kill -9 PID
自己只是想要记录一下出现过的错误,后面方便找