caffe 目标检测 训练教材_训练目标检测神经网络的一堆技巧

本文探讨了针对目标检测神经网络的优化技术,包括视觉相关图像混合、分类头标签平滑、数据预处理、训练调度改进和同步批次归一化等。通过这些技巧,可以在不增加计算复杂度的情况下提升模型性能。
摘要由CSDN通过智能技术生成

Bag of Freebies for Training Object Detection Neural Networks

这篇文章的目的在于不引入其他计算消耗的情况下,探索那些可以提高目标检测性能的方法。

图像分类中一些分散的技巧

1)Learning rate warm up heuristic:was introduced to overcome the negative effect of extremely large mini-batch size.

2) Label Smoothing : modifies the hard ground truth labeling in cross entropy loss.

3)mixup : alleviate adversarial perturbation.(缓解对抗性干扰)

4)Cosine annealing strategy(cos退火策略):in response to traditional step policy.(响应传统的分布政策)

Techinique Details :

Trick 1) Visually Coherent(视觉相关)Image Mixup for Object Detection :用于目标检测的视觉相关的图像混合方法,在实验中,持续增加mixup中的图像混合率,使得结果帧中的目标与自然图像相比会更加生动和连贯。在图像混合中,作者还采样geometry preserved alignment来避免图像的扭曲;同时,作者选择beta分布的比例也更连贯(a>=1, b>=1)与【1、mixup: Beyond empirical risk minimization.】不同。(啊!!!要知道啥意思得去看代码呀)为了证实视觉相关混合方法的有效性,作者所做的实验与【2、The elephant in the room】是一样的。

Trick 2) Classification Head Label Smoothing : 对于每一个物体而言,神经网络都会计算出一个概率分布:

03ad07bfc35f38e1331659205a770628.png

然后用交叉熵来比较预测分布p和真实分布q之间的差距:

466ec19df9b2fb3819a3040af9e56451.png

但是,真值一般都是one-hot分布,也即正确类别为1,其余为0。然后分类网络中使用softmax进行分类时,仅仅当zi>>zj时,才能接近此分布,而不能达到此分布(如检测到其中一个物体为鸟的可能性是0.9,接近1,却不可能等于1)。这种label就不够soft,所以作者提出Label smoothing,来作为正则化的一种方式,以减小过拟合。

smooth the ground truth : K是类别总数;

00550a7d6cc188ae1eaee985e9d39232.png

Trick 3) Data Pre-processing : 目标检测网络对图像几何变换很敏感。

数据增强的方法:

1)随机几何转换。包括随机裁剪(有约束),随机扩展,随机水平翻转和随机调整大小(随机插值)。

2)随机色彩抖动,包括亮度,色相,饱和度和对比度。(写代码实验!!!)

就检测框架而言,常用的就是one-stahe和two-stage,two-stage中大量的生成ROI候选,检测结果是反复在特征图上裁剪相应区域,这种操作和几何变换是类似的,于是在这种架构上进行训练时,并不需要进行大量的几何操作。

Trick 4) Training Scheduler Revamping : 在训练过程中,学习率通常是从一个相对大的值开始,然后逐渐变小。最广泛使用的方法是the step schedule(阶梯式的衰减)。但是这种方法有时会急剧衰减,造成训练不稳定。所以作者采用更为平滑的cosine schedule。

c18c9200321d9e4f791cf589513c078b.png

cosine schedule(余弦时间表) :根据0到pi上的余弦函数值来缩放学习率。 首先是缓慢降低较大的学习率,然后中途迅速降低学习率,最后以很小的斜率结束降低小学习率,直到达到0。

warm up learning rate:这是另外一种常见的策略,避免在初始训练期间发生梯度爆炸。与cosine schedule搭配会得到更好的准确率。

Trick 5) Synchronizzed Batch Normalization : 【Megdet: A large mini-batch object detector. 】这篇文章以及证实了synchronized batch normalization的重要性。

Trick 6)Random shapes training for singlestage object detection networks:一般训练图像是不同尺寸的,为了降低过度拟合的风险并提高网络预测的通用性,我们遵循【】中随机形状训练的方法:一个mini-batch中有N个训练样本,这些图像要被resize成N x3xHxW.比如,通常H,W∈{320; 352; 384; 416; 448; 480; 512; 544; 576; 608}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值