GPU显存未释放问题

我们正在使用TensorFlow或pytorch写程序的时候,有时会在控制台将程序杀死,但是有时候程序已经结束了,用nvidia-smi也看到程序已经停止,但是GPU还占着内存没有释放。

这是因为,在使用pytorch设置多线程(threads)进行数据读取(data_loader)时,其实是假的多线程,而是开了N个子进行进行模拟多线程工作,所以在程序跑完或者中途kill掉主进程的话,子进程的GPU显存并不会被释放掉,需要手动一个一个kill掉

具体方法描述如下:

1、先关闭掉ssh(或shell)窗后,退出重新邓丽

2 查看运行在gpu上的所有程序:

fuser -v /dev/nvidia*

3  kill掉所有的僵尸进程(僵尸进程是连号的)

执行fuser -v /dev/nvidia*   可以发现僵尸进程,查看具体这个进程调用GPU的情况使用   pmap  -d PID

强行关掉所有当前并未执行的僵尸进程

kill -9 PID

参考https://jermine.vdo.pub/python/%E8%A7%A3%E5%86%B3gpu%E6%98%BE%E5%AD%98%E6%9C%AA%E9%87%8A%E6%94%BE%E9%97%AE%E9%A2%98/

自己只是想要记录一下出现过的错误,后面方便找

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值