AlexNet论文笔记

最新推荐文章于 2023-10-05 17:34:33 发布

Innse

最新推荐文章于 2023-10-05 17:34:33 发布

阅读量1.4k

点赞数 1

分类专栏：论文周报文章标签： AlexNet 论文笔记深度学习神经网络

本文链接：https://blog.csdn.net/temis_x/article/details/81459340

版权

5 篇文章 0 订阅

订阅专栏

ImageNet Classification with Deep Convolutional Neural Networks
NIPS 2012
Alex Krizhevsky , Ilya Sutskever , Geoffrey E. Hinton

这篇文章比较“老”，但是很多文章经常提及，回顾一下经典也是有必要的。

概述

这篇文章是2012年的ImageNet比赛冠军模型，ImageNet这个数据集是一个比较大的数据集，当时的模型都是比较小的模型，大多数用到了机器学习的方法，学习能力有限。为了学习这个比较大的数据集，就需要一个有更强学习能力的模型，文章就提出了这样一个比较深的CNN。

文章提出了的网络有8层结构——5层卷积层和三层全连接层，再加上一个1000-way的分类器softmax，
结构有如下几点特点：

使用非饱和神经元ReLU和多个GPU来加速训练。
局部响应归一化，我理解为在输出的通道维做归一化，为神经元的活动创造了竞争机制，达到了一种“侧抑制”的效果，有助于提高泛化能力。
Overlapping Pooling，通过控制步长和size的关系使pooling的窗口有交叠，可以达到提高精度的效果，同时减少过拟合。
网络太大，需要减少过拟合的方法（两种方法）：
1. 数据增强：随机抓取224x224的小块，以及它的水平翻转、改变训练图像中的RGB通道的强度；
2. Dropout：以0.5的概率将每个隐层神经元的输出设置为零

总的来说，这篇文章的主要贡献有4点：

可以看到，它总共有8层结构：5层卷积层加上三层全连接层，最后加上一个1000-way的softmax分类器。

受当时显存的限制，AlexNet是分成两部分放在两个GPU上跑的。

所以每个GPU有一半的kernel；且只在一些特定的层，GPU之间才进行通信，即

另外，响应归一化作者只在第1、2层卷积后使用，跟在max-pooling后面，第5层卷积后也有一层pooling。

上述结构还涉及到一些细节，可以具体讨论一下。

这个我的理解是，它在输出的通道维度上，对第i个通道的点（x,y)的前后n/2个通道做归一化。

这样的做法对局部神经元的活动创造了竞争机制，产生了一种侧抑制的效果，我的理解即是这样会使得输出的神经元中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，作者也通过实验发现这样做能增强模型的泛化能力。

3. 重叠Pooling

不同于传统的pooling，作者通过设置步长小于size的边长z，来达到重叠的目的。

这样做池化层的输出之间会有重叠和覆盖，个人认为，这样保留了更多的位置信息，即文章前面提到的先验知识，同时也提升了特征的丰富性，有助于模型提高泛化能力。

作者也通过实验证明了，使用这种方案确实能降低top-1和top5的错误率以及减少过拟合。

AlexNet虽然只有8层结构，但是参数却达到了6000万，是一个非常大的网络了，如果不采取一些措施，模型很容易会过拟合。在本文中，作者提出了两种方法来解决过拟合的问题：数据增强和dropout。

文章提出了两种比较有效的数据增强方法；

随机抓取224x224的小块，以及它的水平翻转：
1. 从256x256的图片中抓取224x224的小块，并用这抓取的小块来训练网络；
2. 使训练集增加了2048倍，但是样本间有高度依赖性；
3. 不使用这个方案时，出现大量的过拟合；
4. 测试阶段时，抓取5个224x224的小块以及它们的水平翻转（共10个）来做预测，并对这10个小块的softmax预测值做平均。
改变训练图像中的RGB通道的强度：
1. 遍历ImageNet训练集，在RGB像素值的集合上使用PCA
  1. 使已知的主成分加倍
  2. 比例为对应特征值乘以一个随机变量
  3. 随机变量服从均值为0，标准差为0.1的高斯分布

至于为什么要这样做数据增强，我认为，这样做网络能学习到了更加鲁棒性的特征，它能适应不同亮度，不同颜色，甚至不同位置的识别，提高了模型的泛化能力，同时作者的实验结果也说明了这个方法的有效性：错误率降低了1%。