Bag of Freebies for Training Object Detection Neural Networks 论文笔记

本文探讨了提高目标检测模型性能的训练技巧,包括视觉连贯的image mixup、标签平滑、数据预处理、训练策略改进、同步批标准化和单阶段网络的随机形状训练。实验结果显示,这些技巧能有效提升模型的泛化能力和检测性能,且不会增加推理时的计算成本。
摘要由CSDN通过智能技术生成

前言

本文总结了能够增强目标检测网络性能的一些有效的方法,也就是训练过程使用到的一些tricks,这些方法在inference时并不会引入额外的计算消耗。本文的主要贡献如下:

  1. 系统地评估了不同目标检测流程中应用的多种训练tricks,为未来的研究提供了很有价值的参考;
  2. 借鉴分类问题中的mixup技术,提出了一种适合于目标检测网络的视觉连贯的image mixup方法,实验证明该方法能够提升模型的泛化能力;
  3. 扩展了目标检测中数据扩增领域的研究深度,增强了模型的泛化能力,有助于减少过拟合问题;
  4. 在不改变网络结构的情况下,应用本文中的tricks使得模型实现了5%的精度提升,并且这一提升不会带来额外的inference cost。

bag of freebies

本文共提到6种训练时的通用tricks,接下来一一对它们进行说明。

1. visually coherent image mixup for object detection(mixup数据扩增)

实验证明mixup能够缓解分类网络中的对抗性干扰,图像分类任务中的mixup的主要思想是,通过混合像素作为训练图像对儿之间的插值来规范化神经网络,以支持简单的线性行为;与此同时,使用相同的比例对one-hot图像标签进行混合下图是图像分类中mixup的一个例子,混合比例(mixup ratio)为0.1:0.9,两个图像在所有像素上是均匀混合的,而混合后的图像标签是原始one-hot标签向量的加权和。
在这里插入图片描述
mixup算法中混合比例(blending ratio)的分布是从beta分布 B ( 0.2 , 0.2 ) B(0.2,0.2) B(0.2,0.2)中提取的。Rosenfeld等人进行了一系列有趣的实验,称为"elephant in the room",具体来说就是,将一个调整过大小的大象图片随机放到一个自然图像上,也就是给这个自然图像“打补丁”,然后使用该对抗图像去挑战现有的目标检测模型。结果表明,现有的目标检测模型能够简化这种攻击,无力处理这种移植目标。

在本文的实验中,继续增加mixup的混合比例,会发现最后得到的目标更加生动,与自然的图像表示更加一致,类似于在观看低FPS电影时通常观察到的过渡帧。更高混合比例的mixup如下图所示。在图像分类任务中mixup时,需要将两个图像调整为相同大小。而在目标检测中如果将图像调整为相同大小会造成图像畸变,检测任务对于这种变化较为敏感,因此作者采用保留图像几何形状的对齐方式对图像进行mixup。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值