声明:本篇文章参考https://www.cnblogs.com/skyfsm/p/8451834.html
1.LeNet
LeNet是LeCun在1998年提出,用于解决手写数字识别的视觉任务,自此,CNN的基本架构被定为:卷积层、池化层和全连接层
LeNet详细流程如下:
如上图所示,对LeNet深入分析:
1)输入单通道图像矩阵[1,28,28];
2)conv1的卷积核为20*5*5,步长为1,卷积之后的输出矩阵为[20,24,24];
3)pool1的卷积核为20*2*2,步长为2,池化之后输出的矩阵为[20,12,12];
4)conv2的卷积核为50*5*5,步长为1,卷积之后的输出矩阵为[50,8,8];
5)pool2的卷积核为50*2*2, 步长为2,池化之后的输出矩阵为[50,4,4];
6)fc1的神经元数目为500,后接relu激活函数;
7)fc2的神经元数目为10,得到10维的特征向量,送入softmax分类
2.AlexNet
AlexNet在2012年ImageNet竞赛中以超过第二名10.9个百分点的绝对优势一举夺冠,从此深度学习和卷积神经网络名声鹊起,深度学习的研究如雨后春笋般出现,AlexNet的出现可谓是卷积神经网络的王者归来。
闪光点:更深的网络、数据增广、relu、dropout、LRN
以上图AlexNet架构为例,前边5层是卷积层,后边三层是全连接层,最终softmax输出是1000类。
因为使用两片GPU训练,所以可以看到第一层卷积层后的两个完全一样的分支,以加速训练,输入图片规定是256*256的三通道彩色图片,为了增强模型的泛化能力,避免过拟合,作者使用随机裁剪的思想对原来256*256的图像进行随机裁剪,得到尺寸为3*254*254的图像,输入到网络训练。对AlexNet深入分析:
1)conv1的卷积核为96*11*11,步长为4,pad=0,卷积之后输出的矩阵为[96,54,54],然后进行LRN
2)pool1的卷积核为96*3*3, 步长为2,pad=0,最后输出的矩阵为[96,27,27]
3)conv2的卷积核为256*5*5,步长为1,pad=2,卷积之后输出的矩阵为[256,27,27],然后进行LRN
4)pool2的卷积核为256*3*3,步长为2,pad=0,最后输出的矩阵为[256,13,13]
5)conv3的卷积核为384*3*3,步长为1,pad=1,卷积之后输出的矩阵为[384,13,13]
6)conv4的卷积核为384*3*3,步长为1,pad=1,卷积之后输出的矩阵为[384,13,13]
7)conv5的卷积核为256*3*3,步长为1,pad=1,卷积之后的输出矩阵为[256,13,13]
8)pool5的卷积核为256*3*3,步长为2,pad=0,最后输出的矩阵为[256,6,6](不确定)
9)fc6、fc7、fc8每一层的神经元个数为4096