一、小目标训练
配置文件:yolov4.cfg
1、根据数据集中目标尺度生成anchor参数。
darknet detector calc_anchors data/obj.data -num_of_clusters 9 -width 832 -height 832 -show
-num_of_clusters: 9
- number of anchors-width 832 -height 832
:- input network size
2、为检测大量目标在 yolo 层中添加 max=200,检测目标数量设定为200个
for training with a large number of objects in each image, add the parameter max=200 or higher value in the last [yolo]-layer
3、但是官方github说明:
需要尝试具体使用哪种anchor设定。
二、大目标小目标同时检测问题:
https://github.com/AlexeyAB/darknet/issues/2310
https://www.ccoderun.ca/programming/2020-01-04_neural_network_training/
三、yolov4训练问题
1、联合训练两个数据集,出现nan情况。
训练两个数据集,其中一个数据集中目标较小。迭代100次左右,训练出现nan。
解决方法:
(1)确认数据集标签无误,且两个数据集标签类型统一。
(2)调整学习率:根据github中说明,学习率从0.001降低。尝试降级至0.0001、0.00002、0.00005。(未解决)
(3)调整输入图片尺度:从416曾至608、640.(未解决)
(4)用一个数据集训练后,在另一个数据集resume
(5)多GPU训练,需要先用单GPU迭代1000个iter,后在多GPU中resume。
注意,需要根据GPU情况调整learning_rate和burn_in参数。
2、出现nan的解决方式:
https://github.com/AlexeyAB/darknet/issues/5257
https://github.com/AlexeyAB/darknet/issues/5395
Set stopbackward = 2000
Exploding gradients(backward) / features(forward): https://machinelearningmastery.com/exploding-gradients-in-neural-networks/
To solve this:
- reduce learning_rate=
- reduce batch=
- increase burn_in=
- increase decay=
- use
max_delta=3
in[yolo]
layers- use
stopbackward=2000
andtrain_only_bn=1
at the last backbone layer- use less layers
- fix your dataset
- use another model
- use gradinent clipping