Bag of Freebies for Training Object Detection Neural Networks 论文笔记

最新推荐文章于 2021-08-27 11:07:19 发布

头柱碳只狼

最新推荐文章于 2021-08-27 11:07:19 发布

阅读量264

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_30146937/article/details/105987129

版权

本文探讨了提高目标检测模型性能的训练技巧，包括视觉连贯的image mixup、标签平滑、数据预处理、训练策略改进、同步批标准化和单阶段网络的随机形状训练。实验结果显示，这些技巧能有效提升模型的泛化能力和检测性能，且不会增加推理时的计算成本。

摘要由CSDN通过智能技术生成

前言

本文总结了能够增强目标检测网络性能的一些有效的方法，也就是训练过程使用到的一些tricks，这些方法在inference时并不会引入额外的计算消耗。本文的主要贡献如下：

系统地评估了不同目标检测流程中应用的多种训练tricks，为未来的研究提供了很有价值的参考；
借鉴分类问题中的mixup技术，提出了一种适合于目标检测网络的视觉连贯的image mixup方法，实验证明该方法能够提升模型的泛化能力；
扩展了目标检测中数据扩增领域的研究深度，增强了模型的泛化能力，有助于减少过拟合问题；
在不改变网络结构的情况下，应用本文中的tricks使得模型实现了5%的精度提升，并且这一提升不会带来额外的inference cost。

bag of freebies

本文共提到6种训练时的通用tricks，接下来一一对它们进行说明。

1. visually coherent image mixup for object detection（mixup数据扩增）

实验证明mixup能够缓解分类网络中的对抗性干扰，图像分类任务中的mixup的主要思想是，通过混合像素作为训练图像对儿之间的插值来规范化神经网络，以支持简单的线性行为；与此同时，使用相同的比例对one-hot图像标签进行混合。下图是图像分类中mixup的一个例子，混合比例（mixup ratio）为0.1：0.9，两个图像在所有像素上是均匀混合的，而混合后的图像标签是原始one-hot标签向量的加权和。
在这里插入图片描述
mixup算法中混合比例（blending ratio）的分布是从beta分布 $B (0.2, 0.2)$ 中提取的。Rosenfeld等人进行了一系列有趣的实验，称为"elephant in the room"，具体来说就是，将一个调整过大小的大象图片随机放到一个自然图像上，也就是给这个自然图像“打补丁”，然后使用该对抗图像去挑战现有的目标检测模型。结果表明，现有的目标检测模型能够简化这种攻击，无力处理这种移植目标。

在本文的实验中，继续增加mixup的混合比例，会发现最后得到的目标更加生动，与自然的图像表示更加一致，类似于在观看低FPS电影时通常观察到的过渡帧。更高混合比例的mixup如下图所示。在图像分类任务中mixup时，需要将两个图像调整为相同大小。而在目标检测中如果将图像调整为相同大小会造成图像畸变，检测任务对于这种变化较为敏感，因此作者采用保留图像几何形状的对齐方式对图像进行mixup。