ImageNet Classification with Deep Convolutional Neural Networks论文解读

一、论文下载链接及贡献

下载链接:https://dl.acm.org/doi/pdf/10.1145/3065386?download=true
贡献如下:
1.培训了截至到当时最大的CNN之一;
2.研究了ImageNet大规模视觉识别挑战赛(ILSVRC)-2010和2012竞赛2使用的ImageNet的子集,并取得了在截至到当时的最佳结果;
3.编写了一个高度优化的二维卷积的GPU的实现,来训练CNN所固有的所有其他操作,并使得网络提高性能并减少训练时间;
4.使用了几种有效的技术来防止过度拟合。

二、网络结构

2.1 激活函数介绍

使用reLu作为激活函数,将ReLu与tanh做比较,在降低错误率到0.25时候所需要的迭代次数。如下图:

	ReLu与tanh比较
除此外,选用ReLu函数可以避免梯度消失的现象,特别是在训练深度神经网络时候。

2.2 局部响应归一化

ReLUs具有理想的特性,即它们不需要输入规范化来防止饱和。如果至少有一些训练的例子产生一个积极的输入到一个ReLU,学习将发生在该神经元。然而,我们仍然发现下面的局部归一化方案有助于泛化。由 a x , y i a^i_{x,y} ax,yi表示神经元的活动,通过在(x,y)位置应用i,然后应用ReLU非线性来计算,响应标准化活动 b x , y i b^i_{x,y} bx,yi由表达式给出,如下:
在这里插入图片描述
文章使用k=2、n=5、α=10−4和β=0.75。在某些层中应用ReLU非线性之后,文章应用了这种归一化。

2.3 重叠池化

CNN的池层汇总了同一核图中相邻神经元组的输出。传统上,由相邻集合单元汇总的邻域不重叠。更准确地说,池层可以被认为是由间隔s个像素的池单元的网格组成的,每个网格汇总以池单元的位置为中心的大小为z×z的邻域。
如果设置s=z,就得到了CNNs中常用的传统本地池。
文章设置s<z,就得到了论文里面的重叠池化(overlapping pooling)
这是论文在整个网络中使用的,s=2和z=3。与产生等效尺寸输出的非重叠方案s=2、z=2相比,该方案的top-1和top-5错误率分别降低了0.4%和0.3%。通常在训练期间观察到,具有重叠池的模型发现过度拟合稍微困难一些。

2.4 总体框架

在整个神经网络第2、4、5层之上在GPU内部通信,只有在第3层才会发生数据通信。
在这里插入图片描述

三、减轻过拟合

3.1 数据增强

一、数据增强的第一种形式包括生成图像平移和水平反射。
论文通过从256×256图像中随机提取224×224块(以及它们的水平反射)并在这些提取的块上训练我们的网络来实现这一点。这将论文的训练集的大小增加了2048倍,当然,所得到的训练示例是高度相互依赖的。在测试时,网络通过提取五个224×224面片(四个角面片和中心面片)及其水平反射(因此总共有10个面片)进行预测,并平均网络softmax层对这10个面片的预测。
二、数据增强的第二种形式是改变训练图像中RGB通道的强度。
具体来说,在ImageNet训练集中对RGB像素值集执行PCA。对于每幅训练图像,将发现的主成分的倍数相加,其大小与相应的特征值成正比,乘以从高斯分布中提取的随机变量,平均值为0,标准偏差为0.1。因此,对于每个RGB图像像素 I x y = [ I x y R , I x y G , I x y B ] T I_{xy}=[I^{R}_{xy},I^{G}_{xy},I^{B}_{xy}]^T Ixy=[IxyR,IxyG,IxyB]T我们添加以下数量:
在这里插入图片描述
其中pi和λi分别是RGB像素值的3×3协方差矩阵的第i个特征向量和特征值,αi是上述随机变量,符合高斯分布。对于特定训练图像的所有像素,每个αi仅绘制一次,直到该图像再次用于训练为止,此时它被重新绘制。该方案近似地捕捉到了自然图像的一个重要特性,即物体身份对光照强度和颜色的变化是不变的。该方案将top-1错误率降低了1%以上。

3.2 dropout

包括将每个隐藏神经元的输出设置为零,概率为0.5。以这种方式“dropout”的神经元不参与正向传递,也不参与反向传播。因此,每次输入时,神经网络都会对不同的结构进行采样,但所有这些结构都共享权重。这种技术减少了神经元复杂的共同适应,因为神经元不能依赖于其他特定神经元的存在。因此,它被迫学习更健壮的特征,这些特征与其他神经元的许多不同的随机子集结合起来是有用的。
在测试时,论文使用了所有的神经元,但将它们的输出乘以0.5,这是一个合理的近似值,以获取指数多个退出网络产生的预测分布的几何平均值。
这个方式用在网络结构的前两层,如下图:
在这里插入图片描述

四、训练细节

论文使用随机梯度下降法训练模型,批量大小为128个示例,动量为0.9,权重衰减为0.0005。
换句话说,这里的权重衰减不仅仅是一个正则化器:它减少了模型的训练误差。权重w的更新规则为:
在这里插入图片描述
其中i是迭代指数,u是动量变量,ε是学习率,〈wi〉Di是目标相对于w的导数在第i批Di上的平均值,在wi处进行评估。
论文从一个标准偏差为0.01的零均值高斯分布初始化每一层的权重。用常数1初始化了第二、第四和第五卷积层以及完全连接的隐藏层中的神经元偏差。这种初始化通过向relu提供积极的输入来加速早期的学习。用常数0初始化剩余层中的神经元偏差。论文对所有层使用相同的学习速率,在整个培训过程中手动调整。论文遵循的启发式方法是,当验证错误率不再随着当前学习率的提高而提高时,将学习率除以10。学习率初始化为0.01,在终止前降低三倍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值