AlexNet:
先说两个计算公式:
卷积后的大小:(input-kernel_size+2*padding)/stride+1
卷积层参数计算:kernel_depth x( [卷积核]+1)
连接数:参数个数x图大小
拿到的时候看不太懂,每一层的结构并不是那么明确。
layer | input | kernel_size | stride | padding | output | 参数量 |
---|---|---|---|---|---|---|
Input | 227x227x3 | - | - | - | - | 227x227x3 |
Conv1 | 227x227x3 | 11x11x96 | 4x4 | - | 55x55x96 | (11x11x3+1)x96=34944 |
MaxPool1 | 55x55x96 | 3x3 | 2 | - | 27x27x96 | - |
Conv2 | 27x27x96 | 5x5x256 | 1 | 2 | 27x27x256 | (5x5x96+1)x256=614656 |
MaxPool2 | 27x27x256 | 3x3 | 2 | - | 13x13x256 | - |
Conv3 | 13x13x256 | 3x3x384 | 1 | 1 | 13x13x384 | (3x3x256+1)x384=885120 |
Conv4 | 13x13x384 | 3x3x384 | 1 | 1 | 13x13x384 | (3x3x384+1)x384=1327488 |
Conv5 | 13x13x384 | 3x3x256 | 1 | 1 | 13x13x256 | (3x3x384+1)x256=884992 |
MaxPool5 | 13x13x256 | 3x3 | 2 | - | 6x6x256 | - |
FC6 | 6x6x256 | - | - | - | 4096 | 6x6x256x4096+1=37748737 |
FC7 | 4096 | - | - | - | 4096 | 4096x4096+1=16777217 |
FC8 | 4096 | - | - | - | 1000 | 4096x1000+1=4096001 |
模型构造
第1、2、5层卷积时会经过池化层(使用最大池化层),第3、4层卷积不经池化层;第6、7全连接层采用dropout,第8层全连接不适用dropout。
- 第一层卷积时,有如下两步:
kernel_size =11*11,kernel_number=96,stride=4*4,所以有(227-11)/4+1=55
kernel_size= 3*3,stride=2*2,所以有(55-3)/2+1=27
所以第一层卷积的结果为27*27*96
,参数量为:(11x11x3+1)x96=34944
- 第二层卷积:
kernel_size = 5*5,kernel_number=256,stride=1*1,pad=2,所以有(27-5+2*2)/1+1=27
kernel_size=3*3,kernel_number=2*2,所以有(27-3)/2+1=13
所以第二层卷积的结果为13*13*256
,参数量为(5x5x96+1)x256=614656
- 第三层卷积:
kernel_size=3*3,kernel_number=384,stride=1*1,pad=1,所以有(13-3+1*2)/1+1=13
所以第三层卷积后的结果为13*13*384
,参数量为:(3x3x256+1)x384=885120
- 第四层卷积:
kernel_size=3*3,kernel_number=384,stride=1*1,pad=1,所以有(13-3+1*2)/1+1=13
所以第四层卷积的结果为13*13*384
,参数量为:(3x3x384+1)x384=1327488
- 第五层卷积:
kernel_size=3*3,kernel_number = 256,srride=1*1,pad=1,所以有(13-3+1*2)/1+1=13
kernel_size=3*3,stride=2*2,所以有(13-3)/2+1=6
所以第五层卷积的输出为6*6*256
,参数量为:(3x3x384+1)x256=884992
- 第六层全连接:
- 由于将原始的
6x6x256
堆叠形成一个4096
大小的一维向量,所以计算得到参数为6x6x256x4096+1
- 由于将原始的
- 第七层全连接:
- 由于将原始的
4096
转化为4096
大小的一维向量,所以计算得到参数为4096x4096+!
- 由于将原始的
- 第八层全连接:
- 输出最后的
1000
分类,参数量为1000x4096+1
- 输出最后的
尽管卷积层的计算量很大,但是其参数量很小,它通过较小的参数量提取有效的特征。
任何一个卷积层的去除都会使得网络的分类性能大幅下降。
AlexNet的创新点:
- 使用ReLU作为CNN的激活函数,加速学习过程。解决了sigmoid函数以及tanh(x)的梯度消失问题。指出非线性非饱和函数比非线性饱和函数的训练速度快。
饱和函数:当输入达到一定值之后,输出就不再变化了。
- dropout:在训练时使用
dropout
随机忽略一部分神经元(删除神经元置0)[不参与反向传播],避免模型过拟合,用于第6、7全连接层。 - overlapping pooling:以往的CNN使用一般池化,AlexNet中有因为Stride<kernel_size,导致重叠池化,避免平均池化的模糊化效果。使得池化层的输出有重叠和覆盖,提升了特征的丰富性。将池化层的输出扩充为多级较小特征,采用稀疏编码进行多级特征融合,降低池化层输出的特征维度。
- Local Response Normalization,LRN,局部响应值归一化:对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得更大,并抑制其它反馈较小的神经元,提高了模型的泛化能力。利用临近数据做归一化
公式如下,
这个公式中,a表示卷积层的输出结果,它是一个四维数组[batch,height,width,channel]
batch
表示批次数,每一张图片就是一个批次
height
表示图片高度
width
表示图片宽度
channel
反映图片经卷积过后的深度
还是不太理解LRN…
5. GPU加速计算
6. 数据增强:随机从256x256的原始图像中截取224x224大小的区域(以及水平翻转的镜像),相当于增强了(256-224)x(256-224)x 2=2048倍的数据量。使用了数据增强后,减轻过拟合,提升泛化能力。避免因为原始数据量的大小使得参数众多的CNN陷入过拟合中。
卷积神经网络和人工神经网络的差别在于,卷积神经网络的输入为
n*m*3
的RGB图像,而人工神经网络的输入是n*1
的矢量。
- 滤波器必须具有与输入图像相同的数量的通道
- 网络越深,使用的滤波器就越多;拥有的滤波器越多,获得的边缘和特征检测就越多;
池化层:在卷积神经网络上减小特征空间维度,但不减少深度。
参考文章:
1.AlexNet原理解析及实现
2.深度学习的局部响应归一化LRN(Local Response Normalization)理解
3.卷积神经网络的参数计算