AlexNet论文学习笔记(超详解)

研究成果意义

成果

ILSVRC-2012以超出第二名10.9百分比夺冠。
在这里插入图片描述
在这里插入图片描述

历史意义

  1. 拉开了卷积神经网络统治计算机视觉的序幕
  2. 加速计算机视觉应用落地. 在这里插入图片描述

网络结构

采用了5个卷积层和3个全连接层,输出为1000个经过softmax的值。
在这里插入图片描述

网络结构和参数计算

ReLU(Rectified Linear Units)

饱和激活函数和非饱和激活函数:
当我们的n趋近于正无穷,激活函数的导数趋近于0,那么我们称之为右饱和。
当我们的n趋近于负无穷,激活函数的导数趋近于0,那么我们称之为左饱和。
当一个函数既满足左饱和又满足右饱和的时候我们就称之为饱和,典型的函数有Sigmoid,Tanh函数。

因为使用例如 f ( x ) = t a n h ( x ) f(x)=tanh(x) f(x)=tanh(x) f ( x ) = ( 1 + e − x ) − 1 f(x)=(1+e^{-x})^{-1} f(x)=(1+ex)1这样的饱和激活函数速度是非常慢的。所以使用了非饱和激活函数 f ( x ) = m a x ( 0 , x ) f(x)=max(0,x) f(x)=max(0,x)
在这里插入图片描述
优点:

  • 使网络训练更快
  • 防止梯度消失(弥散)(因为大于零时梯度为1)
  • 使网络具有稀疏性(因为小于零时梯度为零)

LRN(Local Response Normalization)

局部响应标准化:有助于AlexNet泛化能力的提升,受真实神经元侧抑制(lateral inhibition)启发
侧抑制:细胞分化变为不同时,它会对周围细胞产生抑制信号,阻止它们向相同方向分化,最终表现为细胞命运的不同。
在这里插入图片描述
在这里插入图片描述
使用了这个技术后top-1、top-5精度提高了1.4%、1.2%

Overlapping Pooling

通常我们使用的池化都是步长等于滑动窗口大小,但是这里使用了带重叠的池化,这里的步长为2滑动窗口大小为3。
使用了这个技术后top-1、top-5精度提高了0.4%、0.3%。

网络特色和训练技巧

Data Augmentation

第一种方式
在训练的时候,从256x256的图像中随机抽出224x224大小的图片,并进行水平翻转。这样每个图片就可以得到32x32x2=2048张图片。
在测试的时候,从256x256的图像中四个角和中间抽出5张224x224大小的图片,并进行水平翻转。这样每个图片可以得到10张测试图片。把这10个图片都输入进去,对结果求平均值。
第二种方式
通过PCA方法修改RGB通道的像素值,实现颜色扰动,效果有限,仅在top-1提高一个点(top-1 acc约为62.5%)

Dropout

通常结合多个模型进行预测可以提高效果。但是使用多个模型会非常耗费时间。我们使用Dropout就可以实现这个效果,我们给神经元设定失活的概率(通常为0.5,而且在测试的时候不进行失活,所以测试的时候需要对结果乘以失活概率)。因为每次都会有神经元随机失活,所以相当于每次训练的是不同的模型,而之后测试时使用完整的神经网络,就可以达到类似于多个模型一起预测的效果。

结果分析

卷积核可视化

  • 卷积核呈现出不同的频率、颜色和方向
  • 两个GPU还呈现分工学习

在这里插入图片描述
为什么使用第一层卷积进行可视化? 因为第一层的卷积核比较大,看着比较清楚;越往后学到的特征是越高级越抽象的,第一个卷积层更符合人眼所见的。

特征的相似性

相似图片的第二个全连接层输出的特征向量的欧氏距离相近。
最后一个全连接层的输入一共有4096个,这些数据相等于是提取出来的高级特征。如果两个图片的这些高级特征欧氏距离相近则说明差距更小。在实际中发现欧氏距离相近的图片往往都是同一个物体。
启发:可用AlexNet提取高级特征进行图像检索、图像聚类、图像编码。在这里插入图片描述

Top-5的语义分析

可以看到预测出来的top-5都是接近的事物。
在这里插入图片描述

总结

关键点

  • 大量带标签数据–ImageNet
  • 高性能计算资源–GPU
  • 合理算法模型–深度卷积神经网络

创新点

  • 采用ReLu加快大型神经网络训练
  • 采用LRN提升大型网络泛化能力
  • 采用Overlapping Pooling提升指标
  • 采用随机裁剪翻转及色彩扰动增加数据多样性
  • 采用Dropout减轻过拟合

启发点

  • 深度与宽带可决定网络能力
  • 更强大的GPU及更多数据可进一步提高模型性能
  • 图片缩放细节,当不是我们需要的大小(256x256)时,对短边先缩放,为了避免短边的像素缺失。(比如一个512x1024的图片,我们得到256x512的图片,然后从中间裁剪)
  • ReLU不需要对输入进行标准化来防止饱和现象,即说明sigmoid/tanh激活函数有必要对输入进行标准化。
  • 卷积核学习到频率、方向和颜色特征
  • 相似图片具有“相近”的高级特征
  • 图像检索可以基于高级特征,效果应该优于原始图像
  • 网络结构具有相关性,不可轻易移除某一层
  • 采用视频数据可能有新突破,因为视频信息可以有时间维度的信息
  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值