YOLO训练模型提示“CUDA_ERROR_OUT_OF_MEMORY”

编译好yolov3进行测试时报错

CUDA Error: out of memory
darknet: ./src/cuda.c:36: check_error: Assertion `0' failed.


解决办法:

1.CUDA Error: out of memory darknet: ./src/cuda.c:36: check_error: Assertio `0' failed.

 

需要修改所使用的模型cfg文件中的subdivision的参数。

由subdivisions=8改成subdivisions=64。

subdivision:这个参数很有意思的,它会让你的每一个batch不是一下子都丢到网络里。而是分成subdivision对应数字的份数,一份一份的跑完后,在一起打包算作完成一次iteration。这样会降低对显存的占用情况。如果设置这个参数为1的话就是一次性把所有batch的图片都丢到网络里,如果为2的话就是一次丢一半。

http://blog.csdn.net/renhanchi/article/details/71077830?locationNum=11&fps=1

报错是因为其申请了太多的内存而内存不够

若上述方法不能解决:

一般在使用shh连接服务器的时候,用GPU训练模型,由于操作习惯问题。终直接在终端用ctrl+z终止训练,此时GPU资源可能未立即释放,
下次继续使用时有可能会报例如CUDA_ERROR_OUT_OF_MEMORY这种错误,就是提示显存不够。这时候需要人工来杀死占用GPU显存的进程。

这几天碰巧加载有一个较大的模型时,提示显存不足,特此解决:

这里就需要通过fuser 找到nivdia对应的程序进程,然后杀掉(fuser 显示使用指定文件或者文件系统的进程的PID。)。
第一步安装如下软件:

    在centos系统下,输入以下指令安装

     yum install psmisc
 

    然后,查看占用GPU资源的进程及ID

    fuser -v /dev/nvidia*
 

    找到仍然在占用GPU的进程PID

     kill -9 pid  # 表示强迫进程立即停止
     kill pid # 也可以终止进程
 
 

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值