一、目标检测的优化方法
Bag of Freebies for Training Object Detection Neural Networks
二、Tricks详解
1、Visually Coherent Image Mixup
本文重点研究了在目标检测中发挥重要作用的自然共现对象表示。本文引入了自然图像中常见的遮挡和空间信号扰动,以获取更复杂的空间变换特征。我们对图像mixup进行几何保持对齐,以避免出现失真图像。我们设定了一个有更直观连贯比的beta分布,其中
α
≥
1
\alpha\geq 1
α≥1和
β
≥
1
\beta\geq 1
β≥1,而不是采用在图像分类中相同的做法。
为了验证visually coherent mixup方法的有效性,我们的实验是移动一个大象图像经过一个室内房间图像。
2、Classification Head Label Smoothing
对于每个对象,检测网络通常会给出一个在所有类别上的概率分布:
p
i
=
e
z
i
∑
j
e
Z
i
p_i=\frac{e^{z_i}}{\sum^{e^{Z_i}}_{j}}
pi=∑jeZiezi
其中
z
i
z_i
zi是分类的最后一个线性层输出的非归一化逻辑。在训练目标检测算法期间,我们通过对比输出的概率分布p和ground truth分布q的交叉熵来修正分类loss。
L
=
−
∑
q
i
log
p
i
L=-\sum q_i\log{p_i}
L=−∑qilogpi
label smooth作为一个正则化方式,我们smooth ground truth分布为:
3、学习率调整
在训练过程中,使用余弦机制的验证集mAP始终比使用阶跃机制的要好。由于频繁调整学习率,也较少出现阶跃衰减的平台现象,即验证集性能会停止增长一段时间,直至学习率降低。
4、Batch Normalization
5、Random shapes
为了减少过拟合的风险和改善网络的泛化能力,我们采用随机尺寸的图片作为训练集来训练。
H
=
W
∈
{
320
;
352
;
384
;
416
;
448
;
480
;
512
;
544
;
576
;
608
}
H =W\in \{ 320; 352; 384; 416; 448; 480; 512; 544; 576; 608\}
H=W∈{320;352;384;416;448;480;512;544;576;608}