caffe 目标检测训练教材_训练目标检测神经网络的一堆技巧

最新推荐文章于 2022-07-26 09:10:54 发布

笔杆abc

最新推荐文章于 2022-07-26 09:10:54 发布

阅读量158

点赞数

文章标签： caffe 目标检测训练教材

本文链接：https://blog.csdn.net/weixin_29231027/article/details/112402551

版权

本文探讨了针对目标检测神经网络的优化技术，包括视觉相关图像混合、分类头标签平滑、数据预处理、训练调度改进和同步批次归一化等。通过这些技巧，可以在不增加计算复杂度的情况下提升模型性能。

摘要由CSDN通过智能技术生成

Bag of Freebies for Training Object Detection Neural Networks

这篇文章的目的在于不引入其他计算消耗的情况下，探索那些可以提高目标检测性能的方法。

图像分类中一些分散的技巧：

1）Learning rate warm up heuristic：was introduced to overcome the negative effect of extremely large mini-batch size.

2) Label Smoothing : modifies the hard ground truth labeling in cross entropy loss.

3）mixup : alleviate adversarial perturbation.（缓解对抗性干扰）

4）Cosine annealing strategy（cos退火策略）：in response to traditional step policy.（响应传统的分布政策）

Techinique Details :

Trick 1) Visually Coherent（视觉相关）Image Mixup for Object Detection ：用于目标检测的视觉相关的图像混合方法，在实验中，持续增加mixup中的图像混合率，使得结果帧中的目标与自然图像相比会更加生动和连贯。在图像混合中，作者还采样geometry preserved alignment来避免图像的扭曲；同时，作者选择beta分布的比例也更连贯（a>=1, b>=1）与【1、mixup: Beyond empirical risk minimization.】不同。（啊！！！要知道啥意思得去看代码呀）为了证实视觉相关混合方法的有效性，作者所做的实验与【2、The elephant in the room】是一样的。

Trick 2) Classification Head Label Smoothing : 对于每一个物体而言，神经网络都会计算出一个概率分布：

然后用交叉熵来比较预测分布p和真实分布q之间的差距：

但是，真值一般都是one-hot分布，也即正确类别为1，其余为0。然后分类网络中使用softmax进行分类时，仅仅当zi>>zj时，才能接近此分布，而不能达到此分布（如检测到其中一个物体为鸟的可能性是0.9，接近1，却不可能等于1）。这种label就不够soft，所以作者提出Label smoothing，来作为正则化的一种方式，以减小过拟合。

smooth the ground truth : K是类别总数；

Trick 3) Data Pre-processing : 目标检测网络对图像几何变换很敏感。

数据增强的方法：

1）随机几何转换。包括随机裁剪（有约束），随机扩展，随机水平翻转和随机调整大小（随机插值）。

2）随机色彩抖动，包括亮度，色相，饱和度和对比度。（写代码实验！！！）

就检测框架而言，常用的就是one-stahe和two-stage，two-stage中大量的生成ROI候选，检测结果是反复在特征图上裁剪相应区域，这种操作和几何变换是类似的，于是在这种架构上进行训练时，并不需要进行大量的几何操作。

Trick 4) Training Scheduler Revamping : 在训练过程中，学习率通常是从一个相对大的值开始，然后逐渐变小。最广泛使用的方法是the step schedule（阶梯式的衰减）。但是这种方法有时会急剧衰减，造成训练不稳定。所以作者采用更为平滑的cosine schedule。

cosine schedule(余弦时间表) ：根据0到pi上的余弦函数值来缩放学习率。首先是缓慢降低较大的学习率，然后中途迅速降低学习率，最后以很小的斜率结束降低小学习率，直到达到0。

warm up learning rate：这是另外一种常见的策略，避免在初始训练期间发生梯度爆炸。与cosine schedule搭配会得到更好的准确率。

Trick 5) Synchronizzed Batch Normalization : 【Megdet: A large mini-batch object detector. 】这篇文章以及证实了synchronized batch normalization的重要性。

Trick 6)Random shapes training for singlestage object detection networks:一般训练图像是不同尺寸的，为了降低过度拟合的风险并提高网络预测的通用性，我们遵循【】中随机形状训练的方法：一个mini-batch中有N个训练样本，这些图像要被resize成N x3xHxW.比如，通常H,W∈{320; 352; 384; 416; 448; 480; 512; 544; 576; 608}