论文名: Bag of Tricks for Image Classification with Convolution Neural Networks
论文地址: http://arxiv.org/pdf/1812.01187v2.pdf
这篇文章是亚马逊李沐团队的一篇技巧(tricks)文章,被CVPR2019收录了。虽然题目是讲的Image Classification,但是作者也说了,在目标检测,实例分类等问题上也是有一定的作用的。在此做下笔记,有理解不对的地方还请大佬们勿喷。
摘要
先看看这篇文章的摘要部分:
翻译一下:
【 摘要 】 图像分类研究最近取得的许多进展可以归因于训练过程的改进,例如 数据增强 和 优化方法的改变。然而,大多数改进要么只是作为实现细节被简要地提到,要么 只在源代码中可见 。在本文中,我们将 研究这些改进的一系列集合 ,并通过 ablation study 评估它们对最终模型精度的影响。我们将证明,通过将这些改进组合在一起,我们能够显著改进各种 CNN 模型。例如,我们将 ResNet-50 在 ImageNet 上的 top-1 验证精度从 75.3% 提高到 79.29% 。 我们还将证明,图像分类准确性的提高,可以在目标检测和语义分割等其他应用领域带来更好的迁移学习性能。
结论
先上结论:
论文概要
1.第 2 节,建立了一个 BaseLine 训练过程,
2.第 3 节,讨论了一些有效训练的技巧。
3.第 4 节,回顾了 ResNet 的三个小型模型体系结构调整,并提出了一个新的改进。
4.第 5 节,讨论另外四个训练过程的改进。
5.最后,在第六节中研究这些更准确的模型是否有助于迁移学习。
BaseLine训练过程
不是文章重点,就不细说了。
作者基于MXnet框架复现了几个网络结构,具体指标如下:
tricks结构
论文中的tricks部分将从以下几个部分展开:
也即:训练速度,网络结构,训练过程优化,迁移学习。
Efficient Training 高效训练
“硬件,尤其是GPU,近年来发展迅速。因此,许多与性能相关的权衡的最佳选择已经改变。例如,现在在训练期间使用更低的数值精度和更大的批量大小更有效。在本节中,我们将介绍各种能够实现低精度和大批量训练的技术,而不会牺牲模型的准确性。有些技术甚至可以提高准确性和训练速度。”
2017年,谷歌大脑发布了一篇论文,从论文的名字,我们就可以看出论文是想干嘛。(谷歌爸爸取名字还真是简单粗暴啊)
论文中指出,越大的batchsize,能带来越好的结果。
实验结果(b)进一步显示增大 Batch Size 的好处,观察损失值与参数更新次数的关系。
其中:
蓝线代表常见的保持 Batch Size,逐步衰减学习率的方法;
红线代表与之相反的,保持学习率,相应的上升 Batch Size 的策略;
绿线模拟真实条件下,上升 Batch Size 达到显存上限的时候,再开始下降学习率的策略。
显然,增大 Batch Size 的方法中参数更新的次数远少于衰减学习率的策略。
我们再看一张图:
这张图可以清晰的看到,更多的一些细节:
- Batch_size太小的话,模型在200个epoch内并不会收敛。
- 随着Batch_size增大,处理相同数据量的速度会越来越快。
- 随着Batch_size 增大 ,达到相同精度所需要的epoch数量越来越多。
以上的观点有一点的矛盾,因为,Batch_size增大到某一时刻,会达到时间上的最优。由于最终精度会陷入不同的局部极值,因此Batch_size在增大到某个时刻,达到最终收敛精度上的最后。
在训练的时候,我们都知道要将Batch_size参数设置的大一些。但是我们也知道,过大的Batch_size会造成如下的缺点:1.模型收敛过慢。2.占用更大的显存。3.训练结果反而会比较小的Batch_size训练结果更差。那我们有没有什么办法在增大Batch_size的同时又避免这些缺点呢?
答案当然是有的!
作者整理了以下方法:
Large-batch training 大批量训练
盲目增大批大小其实无益于提升训练效果,但却有各种小技巧。 为了能进行大Batch_size的训练,作者对比了四种启发式方法(什么是启发式方法?)
Linear scaling learning rate 等比例增大学习率
在小批量SGD中,梯度下降是随机过程,因为在每个批次中样本都是随机选择的。 增加批量大小不会改变随机梯度的期望,但会降低其方差。 换句话说,大批量会降低梯度中的噪声,因此我们可以提高学习率,以便进行调整。换句话说就是, 等比例增大学习率是有用的,Accurate, large minibatch SGD: training imagenet in 1 hour.论文中提到,随着批量大小线性增加学习率地 训练 ResNet-50 。
例如:作者按照何恺明的resnet论文中的内容,选择0.1作为Batch_size为256的初始学习率。当第b个batch时,学习率线性增加到0.1×b/256。<