AlexNet论文学习笔记（超详解）

最新推荐文章于 2022-10-16 10:29:16 发布

Veritaswhs

最新推荐文章于 2022-10-16 10:29:16 发布

阅读量729

点赞数 5

分类专栏： # CV baseline论文文章标签：神经网络 pytorch 深度学习卷积计算机视觉

本文链接：https://blog.csdn.net/weixin_43398590/article/details/106804299

版权

CV baseline论文专栏收录该内容

3 篇文章 0 订阅

订阅专栏

研究成果意义

成果

ILSVRC-2012以超出第二名10.9百分比夺冠。
在这里插入图片描述

历史意义

拉开了卷积神经网络统治计算机视觉的序幕
加速计算机视觉应用落地.

网络结构

采用了5个卷积层和3个全连接层，输出为1000个经过softmax的值。
在这里插入图片描述

网络结构和参数计算

ReLU（Rectified Linear Units）

饱和激活函数和非饱和激活函数：
当我们的n趋近于正无穷，激活函数的导数趋近于0，那么我们称之为右饱和。
当我们的n趋近于负无穷，激活函数的导数趋近于0，那么我们称之为左饱和。
当一个函数既满足左饱和又满足右饱和的时候我们就称之为饱和，典型的函数有Sigmoid，Tanh函数。

因为使用例如 $f (x) = t a n h (x)$ 和 $f(x)=(1+e^{-x})^{-1}$ 这样的饱和激活函数速度是非常慢的。所以使用了非饱和激活函数 $f (x) = m a x (0, x)$ 。
在这里插入图片描述
优点：

使网络训练更快
防止梯度消失（弥散）（因为大于零时梯度为1）
使网络具有稀疏性（因为小于零时梯度为零）

LRN（Local Response Normalization）

局部响应标准化：有助于AlexNet泛化能力的提升，受真实神经元侧抑制（lateral inhibition）启发
侧抑制：细胞分化变为不同时，它会对周围细胞产生抑制信号，阻止它们向相同方向分化，最终表现为细胞命运的不同。
在这里插入图片描述

使用了这个技术后top-1、top-5精度提高了1.4%、1.2%

Overlapping Pooling

通常我们使用的池化都是步长等于滑动窗口大小，但是这里使用了带重叠的池化，这里的步长为2滑动窗口大小为3。
使用了这个技术后top-1、top-5精度提高了0.4%、0.3%。

网络特色和训练技巧

Data Augmentation

第一种方式
在训练的时候，从256x256的图像中随机抽出224x224大小的图片，并进行水平翻转。这样每个图片就可以得到32x32x2=2048张图片。
在测试的时候，从256x256的图像中四个角和中间抽出5张224x224大小的图片，并进行水平翻转。这样每个图片可以得到10张测试图片。把这10个图片都输入进去，对结果求平均值。
第二种方式
通过PCA方法修改RGB通道的像素值，实现颜色扰动，效果有限，仅在top-1提高一个点（top-1 acc约为62.5%）

Dropout

通常结合多个模型进行预测可以提高效果。但是使用多个模型会非常耗费时间。我们使用Dropout就可以实现这个效果，我们给神经元设定失活的概率（通常为0.5，而且在测试的时候不进行失活，所以测试的时候需要对结果乘以失活概率）。因为每次都会有神经元随机失活，所以相当于每次训练的是不同的模型，而之后测试时使用完整的神经网络，就可以达到类似于多个模型一起预测的效果。

结果分析

卷积核可视化

卷积核呈现出不同的频率、颜色和方向
两个GPU还呈现分工学习

在这里插入图片描述
为什么使用第一层卷积进行可视化？ 因为第一层的卷积核比较大，看着比较清楚；越往后学到的特征是越高级越抽象的，第一个卷积层更符合人眼所见的。

特征的相似性

相似图片的第二个全连接层输出的特征向量的欧氏距离相近。
最后一个全连接层的输入一共有4096个，这些数据相等于是提取出来的高级特征。如果两个图片的这些高级特征欧氏距离相近则说明差距更小。在实际中发现欧氏距离相近的图片往往都是同一个物体。
启发：可用AlexNet提取高级特征进行图像检索、图像聚类、图像编码。在这里插入图片描述

Top-5的语义分析

可以看到预测出来的top-5都是接近的事物。
在这里插入图片描述

总结

关键点

大量带标签数据–ImageNet
高性能计算资源–GPU
合理算法模型–深度卷积神经网络

创新点

采用ReLu加快大型神经网络训练
采用LRN提升大型网络泛化能力
采用Overlapping Pooling提升指标
采用随机裁剪翻转及色彩扰动增加数据多样性
采用Dropout减轻过拟合

启发点

深度与宽带可决定网络能力
更强大的GPU及更多数据可进一步提高模型性能
图片缩放细节，当不是我们需要的大小(256x256)时，对短边先缩放，为了避免短边的像素缺失。（比如一个512x1024的图片，我们得到256x512的图片，然后从中间裁剪）
ReLU不需要对输入进行标准化来防止饱和现象，即说明sigmoid/tanh激活函数有必要对输入进行标准化。
卷积核学习到频率、方向和颜色特征
相似图片具有“相近”的高级特征
图像检索可以基于高级特征，效果应该优于原始图像
网络结构具有相关性，不可轻易移除某一层
采用视频数据可能有新突破，因为视频信息可以有时间维度的信息