AlexNet论文--ImageNet Classification with Deep ConvolutionalNeural Networks

原论文链接:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

文章概述:

        构造了一个又大又深的卷积神经网络,该网络具有五个卷积层和3个全连接层,并使用Dropout来降低过拟合。在ImageNet上表现出很好的效果,在LSVRC-2010的测试数据集上的top-1和top-5误差分别为37.5%和17.0%。ILSVRC-2012竞赛中top-5的误差为15.3%,比第二名低了13%。

介绍:

        我们在ILSVRC-2010和ILSVRC-2012竞赛中使用的ImageNet子集上训练了迄今为止最大的卷积神经网络之一,并在这些数据集上取得了很好的结果。该网络中使用了一些新的和不寻常的特点来提高其性能并减少其训练时间,较大的网络规模使得过拟合成为一个重要问题,即使有120万个标记的训练示例,我们也使用了几种技术来防止过拟合。我们的最终网络包含五个卷积层和三个完全连接层,并且我们发现去除任何卷积层(即使每个卷积层包含的模型参数不超过1%)会导致性能下降。(ps:其实这里的深度也没有这么重要,后面发现要是参数调到位 即使少一层卷积也能达到该效果)

方法:

网络结构

1 该模型一共分布在两个GPU上,将输入的图片进行横向切开,分别作为两块GPU上的输入。从上图可以看见除了第三层和后面的全连接层外,每一层的输入都是上一层在同一块GPU上的输出。 (这里这样分开是因为当时的硬件条件不能支撑在一块GPU上运行该网络)

2 第一和第二卷积层的输出会进行一个局部相应归一化(Response-normalization layers ),对数据进行一些归一化处理。

3 在Response-normalization和第五层卷积层后有一个最大池化层

4 每一个卷积层和全连接层后都有ReLu非线性层

5 前两个全连接层后使用dropout来防止网络的过拟合

重叠最大池化层

        相对于传统的no-overlapping pooling,采用Overlapping Pooling不仅可以提升预测精度,同时一定程度上可以减缓过拟合。相比于正常池化(步长s=2,窗口z=2) 重叠池化(步长s=2,窗口z=3) 可以减少top-1, top-5分别为0.4% 和0.3%。

局部响应归一化(RNL)

         局部响应归一化处理方法类似于生物神经元的横向抑制机制,可以理解为将局部响应最大的再放大,并抑制其他响应较小的(放大局部显著特征,作用还是提高鲁棒性)。

其他细节

        超参数:batch_size = 128 , momentum = 0.9 ,weight decay = 0.0005

        权重和偏移的初始化:使用(0,0.01)的高斯分布来对权重进行初始化,第2、4、5和全连接层的偏移初始值为1,其他偏移置为0。

        我们已经扩大了我们的网络并训练了更长的时间,但为了匹配人类视觉系统的推断-时间路径,我们还有许多数量级要做。学习率初始值为0.01,当验证误差不再下降时手动将学习率除以10

实验结果:

        在ILSVRC-2010年公布的测试数据集上top-1和top-5的结果,可以看出卷积模型比其他模型的误差率都要低。

         带*号的是将模型在2011年imagenet秋季发布的数据集上进行预训练后的结果,可以看出使用预训练的模型来对数据集进行迁移学习效果是比直接在该数据集上进行训练的效果好。

        通过计算其对 8 个测试图像的前 5 个预测来定性地评估网络所学到的知识,大部分都是合理的。

         第一列为测试图像,后面六列是它们在最后一个隐藏层中生成特征向量,与测试图像的特征向量的欧几里得距离最小对于的图片。

总结

        大型深度卷积神经网络能够使用纯监督学习在具有高度挑战性的数据集上实现破记录的结果。值得注意的是,如果删除单个卷积层,我们的网络性能会下降。虽然我们扩大了网络并训练了更长的时间,但与人类视觉系统还有很大的差距。

        最后作者提出希望在视频序列上使用非常大和深的卷积网络,其中时间结构提供了非常有用的信息,这些在静态图像中不那么明显的信息。

其他

        整体上AlexNet参数计算量大,其中使用的一些小Tips为后面经典网络的提出奠定了基础。改论文认为LRN可以很好防止过拟合,但该方法在VGG中被抛弃,原因是该操作基本没有作用而会增加计算量。另外提到的重叠池化层后续也没有继续使用。

        但该论文开启了使用监督学习来进行图片分类的方法,在此之前大家的方向都是使用无监督学习。并且该论文中实现了端到端的图片处理(只对原始图片进行了简单的处理,裁剪和变换GRB通道啥的)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值