UserWarning: resource_tracker: There appear to be 20 leaked semaphore objects to clean up at shutdow

问题场景描述

双卡训练爆OOM的错误,程序停止,但是其中程序在其中一张卡上在跑,直接kill -9会有User-Warning,这个警告是来自于Python的mutilprocess,提示有信号量没有被正确释放: UserWarning: resource_tracker: There appear to be 20 leaked semaphore objects to clean up at shutdown warnings.warn('resource_tracker: There appear to be %d '。

结论先行

因为两张卡的可用资源不平衡,所以需要调整bs,或者用显存资源相对平衡的多GPU。单卡上的进程用kill杀掉而不是kill -9,使得终止进程时来得及清理资源。

问题分析

  • 首先需要知道:双卡训练会产生一个父线程,然后父线程会产生两个子线程分别放到两张GPU上训练
  • OOM会迫使父线程终止,但有一个子线程仍然在其中一张卡上跑(说明两张显卡的可用资源不平衡,一张可用一张不够用),并且程序中也没有处理好子线程的及时回收。所以该子线程就会成为孤儿线程,被系统默认的1号线程收养
  • 用kill -9会强制立刻杀死进程(发送SIGKILL信号),会来不及执行清理工作,比如一些打开的文件、未释放的信号量等。所以用kill 命令(发送SIGTERM信号)即可,停止进程时会释放进程所占用的资源。
  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值