ImageNet Classification with Deep Convolutional Neural Networks论文解读

最新推荐文章于 2022-10-27 22:52:23 发布

嚣张的稀粥

最新推荐文章于 2022-10-27 22:52:23 发布

阅读量361

点赞数 1

文章标签：计算机视觉神经网络

本文链接：https://blog.csdn.net/qq_43183663/article/details/115179994

版权

ImageNet Classification with Deep Convolutional Neural Networks论文解读

一、论文下载链接及贡献
二、网络结构
三、减轻过拟合
- - 3.1 数据增强
  - 3.2 dropout
四、训练细节

一、论文下载链接及贡献

下载链接：https://dl.acm.org/doi/pdf/10.1145/3065386?download=true
贡献如下：
1.培训了截至到当时最大的CNN之一；
2.研究了ImageNet大规模视觉识别挑战赛(ILSVRC)-2010和2012竞赛2使用的ImageNet的子集，并取得了在截至到当时的最佳结果；
3.编写了一个高度优化的二维卷积的GPU的实现，来训练CNN所固有的所有其他操作，并使得网络提高性能并减少训练时间；
4.使用了几种有效的技术来防止过度拟合。

二、网络结构

2.1 激活函数介绍

使用reLu作为激活函数，将ReLu与tanh做比较，在降低错误率到0.25时候所需要的迭代次数。如下图：

ReLu与tanh比较
除此外，选用ReLu函数可以避免梯度消失的现象，特别是在训练深度神经网络时候。

2.2 局部响应归一化

ReLUs具有理想的特性，即它们不需要输入规范化来防止饱和。如果至少有一些训练的例子产生一个积极的输入到一个ReLU，学习将发生在该神经元。然而，我们仍然发现下面的局部归一化方案有助于泛化。由 $a^i_{x,y}$ 表示神经元的活动，通过在（x，y）位置应用i，然后应用ReLU非线性来计算，响应标准化活动 $b^i_{x,y}$ 由表达式给出，如下：
在这里插入图片描述
文章使用k=2、n=5、α=10−4和β=0.75。在某些层中应用ReLU非线性之后，文章应用了这种归一化。

2.3 重叠池化

CNN的池层汇总了同一核图中相邻神经元组的输出。传统上，由相邻集合单元汇总的邻域不重叠。更准确地说，池层可以被认为是由间隔s个像素的池单元的网格组成的，每个网格汇总以池单元的位置为中心的大小为z×z的邻域。
如果设置s=z，就得到了CNNs中常用的传统本地池。
文章设置s<z，就得到了论文里面的重叠池化（overlapping pooling）
这是论文在整个网络中使用的，s=2和z=3。与产生等效尺寸输出的非重叠方案s=2、z=2相比，该方案的top-1和top-5错误率分别降低了0.4%和0.3%。通常在训练期间观察到，具有重叠池的模型发现过度拟合稍微困难一些。

2.4 总体框架

在整个神经网络第2、4、5层之上在GPU内部通信，只有在第3层才会发生数据通信。
在这里插入图片描述

三、减轻过拟合

3.1 数据增强

一、数据增强的第一种形式包括生成图像平移和水平反射。
论文通过从256×256图像中随机提取224×224块（以及它们的水平反射）并在这些提取的块上训练我们的网络来实现这一点。这将论文的训练集的大小增加了2048倍，当然，所得到的训练示例是高度相互依赖的。在测试时，网络通过提取五个224×224面片（四个角面片和中心面片）及其水平反射（因此总共有10个面片）进行预测，并平均网络softmax层对这10个面片的预测。
二、数据增强的第二种形式是改变训练图像中RGB通道的强度。
具体来说，在ImageNet训练集中对RGB像素值集执行PCA。对于每幅训练图像，将发现的主成分的倍数相加，其大小与相应的特征值成正比，乘以从高斯分布中提取的随机变量，平均值为0，标准偏差为0.1。因此，对于每个RGB图像像素 $I_{xy}=[I^{R}_{xy},I^{G}_{xy},I^{B}_{xy}]^T$ 我们添加以下数量：
在这里插入图片描述
其中pi和λi分别是RGB像素值的3×3协方差矩阵的第i个特征向量和特征值，αi是上述随机变量，符合高斯分布。对于特定训练图像的所有像素，每个αi仅绘制一次，直到该图像再次用于训练为止，此时它被重新绘制。该方案近似地捕捉到了自然图像的一个重要特性，即物体身份对光照强度和颜色的变化是不变的。该方案将top-1错误率降低了1%以上。

3.2 dropout

包括将每个隐藏神经元的输出设置为零，概率为0.5。以这种方式“dropout”的神经元不参与正向传递，也不参与反向传播。因此，每次输入时，神经网络都会对不同的结构进行采样，但所有这些结构都共享权重。这种技术减少了神经元复杂的共同适应，因为神经元不能依赖于其他特定神经元的存在。因此，它被迫学习更健壮的特征，这些特征与其他神经元的许多不同的随机子集结合起来是有用的。
在测试时，论文使用了所有的神经元，但将它们的输出乘以0.5，这是一个合理的近似值，以获取指数多个退出网络产生的预测分布的几何平均值。
这个方式用在网络结构的前两层，如下图：
在这里插入图片描述

四、训练细节

论文使用随机梯度下降法训练模型，批量大小为128个示例，动量为0.9，权重衰减为0.0005。
换句话说，这里的权重衰减不仅仅是一个正则化器：它减少了模型的训练误差。权重w的更新规则为：
在这里插入图片描述
其中i是迭代指数，u是动量变量，ε是学习率，〈wi〉Di是目标相对于w的导数在第i批Di上的平均值，在wi处进行评估。
论文从一个标准偏差为0.01的零均值高斯分布初始化每一层的权重。用常数1初始化了第二、第四和第五卷积层以及完全连接的隐藏层中的神经元偏差。这种初始化通过向relu提供积极的输入来加速早期的学习。用常数0初始化剩余层中的神经元偏差。论文对所有层使用相同的学习速率，在整个培训过程中手动调整。论文遵循的启发式方法是，当验证错误率不再随着当前学习率的提高而提高时，将学习率除以10。学习率初始化为0.01，在终止前降低三倍。