论文解析： Bag of Freebies for Training Object Detection Neural Networks

jia++ming

已于 2023-01-16 16:25:56 修改

阅读量161

点赞数 1

文章标签：目标检测深度学习人工智能

于 2023-01-16 16:17:02 首次发布

本文链接：https://blog.csdn.net/weixin_39584888/article/details/128705709

版权

目标检测必读论文解读： Bag of Freebies for Training Object Detection Neural Networks

Contribution:

系统的评估和总结不同的目标检测器的训练技巧
提出了一种应用于目标检测的新的mixup方法
深入探究了数据增强的domain对于目标检测的影响，帮助解决过拟合问题，增强模型的泛化性能
提升了5% 的精度，推理时间没有改变

Methodology:

1. 提出了一种mixup的数据增强技巧：

首先，这种数据增强就是把两张图片的像素按照一定比例进行组合，看起来有透明的效果，与此同时需要对齐label：
在这里插入图片描述

其次，对于这个比例来说，本身就是一种概率。那我们尝试对这种概率出现的概率进行建模，使用了beta分布，最终经过实验得出α和β分别是1.5的时候mAP比较高，由此确定了mixup的参数方案
在这里插入图片描述

2. 分类头的label平滑：

对于分类问题来说，输出层的每一个节点（类）输出 z_i 要经过一个softmax层用来归一化，方程如下图所示
在这里插入图片描述
在检测器的训练过程中，我们使用交叉熵损失作为输出的loss方程并且以此拟合softmax（p）和真实gt的分布（q），方程如下，q通常是one hot 编码：

在这里插入图片描述
但是分类平滑目的是让q中可以包含更多的logit，可以被表示为：其中 ε是一个很小的常数，K代表所有的分类个数

这种操作实际是通过减小了模型的置信度，通过让模型学到了不同类别之间的logit

3. 数据的预处理：

在图像分类任务中我们通常使用很多的纯图像级别的图形变化方案，但是对于图像检测来说对于这种数据增强相对是更敏感的，所以我们要小心的通过试验去验证，目前比较有效的包括：

随机图形学的变换：随机crop，随机expansion，随机翻转，随机resize（with 随机插值方法）
随机的颜色变换：亮度，对比度，饱和度，色域，

很值得注意的一点是，二阶段的检测器通常是要从大量的候选框里面进行选择，然后在检测图上反复进行裁剪，这就相当于random crop，所以通常情况下，我们对于二阶段的检测器不使用random crop

4. 训练机制的改进（lr schedule）：

lr shcedule: 在训练的过程中我们需要动态的调整lr的大小。通常会开始的lr比较大，但是固
定轮次之后变得越来越小，这就是比较常见的step schedule策略。但是我们引入另一种 lr的策略就是cosine schedule 也叫做余弦退火策略，开始lr下降的比较慢，后面lr迅速下降。

在这里插入图片描述 )

Warmup learning rate: 这种trick一定程度的避免了在训练初期的梯度爆炸问题。在yolov3中，负样本在开始的几个轮次主导梯度更新。

5. 同步batch normalization：

同时，作者还发现，对于检测器来说。如果多卡做batch normalization会有精度损失，如果每一个gpu的图片数量保持相对较多。那么损失不是很严重，但是如果每张图片的数量比较少。那么多卡训练会对最终精度产生影响。

6. random shape training：

目标检测的训练样本通常是各种形状都存在的，许多检测器为了能节省内存开销并且让batch norm更容易，通常固定image的形状。但是为了减少over fitting 的风险，我们使用random shape的方式进行训练。

Experiment:

在这里插入图片描述

本文属于目标检测总结中的一篇，访问完整目标检测小结，点此跳转：

jia++ming

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文解析： Bag of Freebies for Training Object Detection Neural Networks

论文解读：Bag of Freebies for Training Object Detection Neural Networks
复制链接

扫一扫