解读：Bag of Tricks for Image Classification with Convolutional Neural Networks

最新推荐文章于 2024-04-23 23:10:13 发布

Paul-LangJun

最新推荐文章于 2024-04-23 23:10:13 发布

阅读量1.2k

点赞数

分类专栏：神经网络文章标签：深度学习计算机视觉 cnn

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/122308398

版权

45 篇文章

订阅专栏

该论文从实验和理论的角度阐述了一系列卷积神经网络在图像分类方面的一些训练技巧，主要聚焦的是效率和精度两个方面，主题涵盖了数据增强、超参数设置、知识蒸馏等。

在凸优化问题中，使用较大的Batch训练模型，往往收敛率会随之降低，需要更多的Epoch才能收敛到近似最优解。但是，神经网络是否是凸函数要看其所使用的激活函数，但是神经网络参数空间的局部可以近似看作是凸的。如何处理大Batch训练问题，该文叙述了几个代表方法。

线性缩放学习率。随着batch增大，线性的改变学习率，如 $lr\ \ast \ \frac{Batchsize}{256}$ 。
学习率预热（warmup）。由于初始参数都是随机的，直接使用较大的学习率在训练初始阶段会造成数值不稳定，不容易收敛；通过设定一个较小的训练窗口（比如3个Epoch），使学习率在窗口内逐步的从0上升到预设学习率（比如0.01），可以缓解初期的训练。
Cosine Learning Rate Decay。余弦学习率衰减，学习率以周期性的、平滑的、余弦式的改变，训练过程更平稳，有更大的机会找到比较好的解。
$\gamma$ 置 0。ResNet每个残差块的BN部分 $\gamma$ 初始置0，简化模型，易于初始的训练。
No bias decay。L2正则不作用于偏置、 $\gamma$ 、 $\beta$ 。

低精度就是将高精度参数取值类型换成低精度取值类型，如FP32改为FP16。

模型结构调整，虽然改动小，但可能对训练效率和精度影响甚大。

BottleNeck： $1\ast 1 \ \rightarrow \ 3\ast 3\ \rightarrow \ 1\ast 1$ ，第1个卷积不改变分辨率，第2个卷积开始分辨率开始降低，如瓶口一样，下面粗上面细。
三个 $3\ast 3$ 计算效率优于一个 $7\ast 7$ ，而且引入了更多的非线性因素，在Inception-v2模型中首次引入。
方法很多，最终目的无非两个，一是提速，二是尽可能利用上所有信息。