前言
本文总结了能够增强目标检测网络性能的一些有效的方法,也就是训练过程使用到的一些tricks,这些方法在inference时并不会引入额外的计算消耗。本文的主要贡献如下:
- 系统地评估了不同目标检测流程中应用的多种训练tricks,为未来的研究提供了很有价值的参考;
- 借鉴分类问题中的mixup技术,提出了一种适合于目标检测网络的视觉连贯的image mixup方法,实验证明该方法能够提升模型的泛化能力;
- 扩展了目标检测中数据扩增领域的研究深度,增强了模型的泛化能力,有助于减少过拟合问题;
- 在不改变网络结构的情况下,应用本文中的tricks使得模型实现了5%的精度提升,并且这一提升不会带来额外的inference cost。
bag of freebies
本文共提到6种训练时的通用tricks,接下来一一对它们进行说明。
1. visually coherent image mixup for object detection(mixup数据扩增)
实验证明mixup能够缓解分类网络中的对抗性干扰,图像分类任务中的mixup的主要思想是,通过混合像素作为训练图像对儿之间的插值来规范化神经网络,以支持简单的线性行为;与此同时,使用相同的比例对one-hot图像标签进行混合。下图是图像分类中mixup的一个例子,混合比例(mixup ratio)为0.1:0.9,两个图像在所有像素上是均匀混合的,而混合后的图像标签是原始one-hot标签向量的加权和。
mixup算法中混合比例(blending ratio)的分布是从beta分布 B ( 0.2 , 0.2 ) B(0.2,0.2) B(0.2,0.2)中提取的。Rosenfeld等人进行了一系列有趣的实验,称为"elephant in the room",具体来说就是,将一个调整过大小的大象图片随机放到一个自然图像上,也就是给这个自然图像“打补丁”,然后使用该对抗图像去挑战现有的目标检测模型。结果表明,现有的目标检测模型能够简化这种攻击,无力处理这种移植目标。
在本文的实验中,继续增加mixup的混合比例,会发现最后得到的目标更加生动,与自然的图像表示更加一致,类似于在观看低FPS电影时通常观察到的过渡帧。更高混合比例的mixup如下图所示。在图像分类任务中mixup时,需要将两个图像调整为相同大小。而在目标检测中如果将图像调整为相同大小会造成图像畸变,检测任务对于这种变化较为敏感,因此作者采用保留图像几何形状的对齐方式对图像进行mixup。