目录
研究成果意义
成果
ILSVRC-2012以超出第二名10.9百分比夺冠。
历史意义
- 拉开了卷积神经网络统治计算机视觉的序幕
- 加速计算机视觉应用落地.
网络结构
采用了5个卷积层和3个全连接层,输出为1000个经过softmax的值。
网络结构和参数计算
ReLU(Rectified Linear Units)
饱和激活函数和非饱和激活函数:
当我们的n趋近于正无穷,激活函数的导数趋近于0,那么我们称之为右饱和。
当我们的n趋近于负无穷,激活函数的导数趋近于0,那么我们称之为左饱和。
当一个函数既满足左饱和又满足右饱和的时候我们就称之为饱和,典型的函数有Sigmoid,Tanh函数。
因为使用例如
f
(
x
)
=
t
a
n
h
(
x
)
f(x)=tanh(x)
f(x)=tanh(x)和
f
(
x
)
=
(
1
+
e
−
x
)
−
1
f(x)=(1+e^{-x})^{-1}
f(x)=(1+e−x)−1这样的饱和激活函数速度是非常慢的。所以使用了非饱和激活函数
f
(
x
)
=
m
a
x
(
0
,
x
)
f(x)=max(0,x)
f(x)=max(0,x)。
优点:
- 使网络训练更快
- 防止梯度消失(弥散)(因为大于零时梯度为1)
- 使网络具有稀疏性(因为小于零时梯度为零)
LRN(Local Response Normalization)
局部响应标准化:有助于AlexNet泛化能力的提升,受真实神经元侧抑制(lateral inhibition)启发
侧抑制:细胞分化变为不同时,它会对周围细胞产生抑制信号,阻止它们向相同方向分化,最终表现为细胞命运的不同。
使用了这个技术后top-1、top-5精度提高了1.4%、1.2%
Overlapping Pooling
通常我们使用的池化都是步长等于滑动窗口大小,但是这里使用了带重叠的池化,这里的步长为2滑动窗口大小为3。
使用了这个技术后top-1、top-5精度提高了0.4%、0.3%。
网络特色和训练技巧
Data Augmentation
第一种方式
在训练的时候,从256x256的图像中随机抽出224x224大小的图片,并进行水平翻转。这样每个图片就可以得到32x32x2=2048张图片。
在测试的时候,从256x256的图像中四个角和中间抽出5张224x224大小的图片,并进行水平翻转。这样每个图片可以得到10张测试图片。把这10个图片都输入进去,对结果求平均值。
第二种方式
通过PCA方法修改RGB通道的像素值,实现颜色扰动,效果有限,仅在top-1提高一个点(top-1 acc约为62.5%)
Dropout
通常结合多个模型进行预测可以提高效果。但是使用多个模型会非常耗费时间。我们使用Dropout就可以实现这个效果,我们给神经元设定失活的概率(通常为0.5,而且在测试的时候不进行失活,所以测试的时候需要对结果乘以失活概率)。因为每次都会有神经元随机失活,所以相当于每次训练的是不同的模型,而之后测试时使用完整的神经网络,就可以达到类似于多个模型一起预测的效果。
结果分析
卷积核可视化
- 卷积核呈现出不同的频率、颜色和方向
- 两个GPU还呈现分工学习
为什么使用第一层卷积进行可视化? 因为第一层的卷积核比较大,看着比较清楚;越往后学到的特征是越高级越抽象的,第一个卷积层更符合人眼所见的。
特征的相似性
相似图片的第二个全连接层输出的特征向量的欧氏距离相近。
最后一个全连接层的输入一共有4096个,这些数据相等于是提取出来的高级特征。如果两个图片的这些高级特征欧氏距离相近则说明差距更小。在实际中发现欧氏距离相近的图片往往都是同一个物体。
启发:可用AlexNet提取高级特征进行图像检索、图像聚类、图像编码。
Top-5的语义分析
可以看到预测出来的top-5都是接近的事物。
总结
关键点
- 大量带标签数据–ImageNet
- 高性能计算资源–GPU
- 合理算法模型–深度卷积神经网络
创新点
- 采用ReLu加快大型神经网络训练
- 采用LRN提升大型网络泛化能力
- 采用Overlapping Pooling提升指标
- 采用随机裁剪翻转及色彩扰动增加数据多样性
- 采用Dropout减轻过拟合
启发点
- 深度与宽带可决定网络能力
- 更强大的GPU及更多数据可进一步提高模型性能
- 图片缩放细节,当不是我们需要的大小(256x256)时,对短边先缩放,为了避免短边的像素缺失。(比如一个512x1024的图片,我们得到256x512的图片,然后从中间裁剪)
- ReLU不需要对输入进行标准化来防止饱和现象,即说明sigmoid/tanh激活函数有必要对输入进行标准化。
- 卷积核学习到频率、方向和颜色特征
- 相似图片具有“相近”的高级特征
- 图像检索可以基于高级特征,效果应该优于原始图像
- 网络结构具有相关性,不可轻易移除某一层
- 采用视频数据可能有新突破,因为视频信息可以有时间维度的信息