论文全称:《Bag of Tricks for Image Classification with Convolutional Neural Networks》
论文地址:https://arxiv.org/pdf/1812.01187.pdf
这篇文章主要讨论最近这些训练神经网络的tricks,这些tricks大部分都只是在以前的论文轻描淡写地一笔带过,有些只能在源代码里找到,但这一部分可能很重要。令人惊讶的是对这些tricks作对照实验结果还能优于一些后来提出的网络,真的不知道是tricks厉害还是提出网络的结构的贡献了。见下图。
整篇论文围绕不同的tricks阐述,并且对他们做了一系列的实验。通过将这些改进结合在一起,能够显著改进各种CNN模型。例如,将ResNet-50在ImageNet上的top-1验证精度从75.3%提高到79.29%。论文还证明了,图像分类精度的提高,可以在目标检测和语义分割等其他应用领域带来更好的转移学习性能。
关于训练
线性比例缩放learning rate
随着批量大小线性增加学习率是有效的。
learning rate热身
线性地将学习率从0增加到初始学习率。
Zero γ
初始化所有BN层的γ= 0,因此,所有residual的块只返回它们的输入,模拟的网络层数较少