windows下训练yolo时出现CUDA Error: out of memory问题的解决

SunnyFish-ty

于 2018-05-24 11:29:02 发布

阅读量4.5w

点赞数 5

分类专栏：机器学习

机器学习专栏收录该内容

13 篇文章

订阅专栏

1.CUDA Error: out of memory darknet: ./src/cuda.c:36: check_error: Assertio `0' failed.

需要修改所使用的模型cfg文件中的subdivision的参数。

由subdivisions=8改成subdivisions=64。

subdivision：这个参数很有意思的，它会让你的每一个batch不是一下子都丢到网络里。而是分成subdivision对应数字的份数，一份一份的跑完后，在一起打包算作完成一次iteration。这样会降低对显存的占用情况。如果设置这个参数为1的话就是一次性把所有batch的图片都丢到网络里，如果为2的话就是一次丢一半。

http://blog.csdn.net/renhanchi/article/details/71077830?locationNum=11&fps=1

若上述方法不能解决：

导致cuda真正的原因是：

大致意思就是服务器的GPU大小为M

tensorflow只能申请N（N<M）

也就是tensorflow告诉你不能申请到GPU的全部资源然后就不干了

解决方法：

找到代码中Session

在session定义前增加

config = tf.ConfigProto(allow_soft_placement=True)

#最多占gpu资源的70%
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.7)

#开始不会给tensorflow全部gpu资源而是按需增加
config.gpu_options.allow_growth = True
sess = tf.Session(config=config)

这样就没问题了

其实tensorflow 算是一个比较贪心的工具了

就算用device_id指定gpu 也会占用别的GPU的显存资源必须在执行程序前

执行 export CUDA_VISIBLE_DEVICES=n（n为可见的服务器编号）

再去执行python 代码.py 才不会占用别的GPU资源

最近刚开始搞tensorflow 之前都是caffe

这周连续3天被实验室的人举报占用过多服务器资源真是心累只要用上面的方法

也就是执行代码前执行 export CUDA_VISIBLE_DEVICES=n

只让1个或者个别GPU可见其他GPU看不见就行了

http://blog.csdn.net/wangkun1340378/article/details/72782593

解决方法：运行ytiny-yolo-voc.cfg不会遇到此类情况，但是使用yolo-voc.cfg等多层模型会遇到cuda error out of memory错误，由于本人能力在darknet中并没有找到上述资料中所说的修改gpu资源分配的地方。故需运行yolo-voc.cfg时先查看nvidia-smi中查看gpu使用情况，只有完全gpu完全闲置才可以正常运行。（若有人同时在跑其他程序就不行啦）

2.使用detector recall函数前需要先修改examples/detector.c的代码

//改成infrared_val.txt的完整路径

然后记得一定要make一下

http://blog.csdn.net/hysteric314/article/details/54097845

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。