该文章记录了YOLOv1-YOLOv3训练过程中可能出现的问题,没有特别标明的,在不同版本YOLO训练中都可能存在的问题。
如果大家有问题/不同的解决办法,欢迎留言。更新于6/28/2018
1. CUDA Error: out of memory
配置Makefile,使用GPU,CUDN以及Opencv
GPU=1
CUDNN=1
OPENCV=1
OPENMP=0
DEBUG=0
出现报错:
darknet: ./src/cuda.c:36: check_error: Assertion `0' failed.
原因是GPU内存不够了
1. 可能是有人占用资源,查查后台进程
2. batch size过大,超出了显卡能够承受的范围。可以适当改小cfg文件中的batch,同时让batch和subdivisions保持在一个比较合适的比例,每次传入的图片数量=进行forward propagation的图片数量=batch/subdivisions,进行backward propagation的图片数量=batch (我的理解是这样,如果不对欢迎指正)
2. loss不收敛,到处都是nan
使用官网教程里的数据出现lo