CNN五大经典模型:Lenet,Alexnet,Googlenet,VGG,DRL

Lenet,1986年

Alexnet,2012年

GoogleNet,2014年

VGG,2014年

Deep Residual Learning,2015年

Lenet

网址:https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_train_test.prototxt

LeNet-5包含七层,不包括输入,每一层都包含可训练参数(权重),输入数据是32*32像素的图像。卷积层将用Cx表示,子采样层则被标记为Sx,完全连接层被标记为Fx,其中x是层索引。

层C1是具有六个5*5的卷积核的卷积层(convolution),特征映射的大小为28*28,这样可以防止输入图像的信息掉出卷积核边界。C1包含156个可训练参数和122304个连接。

层S2是输出6个大小为14*14的特征图的子采样层(subsampling/pooling)。每个特征地图中的每个单元连接到C1中的对应特征地图中的2*2个邻域。S2中单位的四个输入相加,然后乘以可训练系数(权重),然后加到可训练偏差(bias)。结果通过S形函数传递。由于2*2个感受域不重叠,因此S2中的特征图只有C1中的特征图的一半行数和列数。S2层有12个可训练参数和5880个连接。

层C3是具有16个5-5的卷积核的卷积层。前六个C3特征图的输入是S2中的三个特征图的每个连续子集,接下来的六个特征图的输入则来自四个连续子集的输入,接下来的三个特征图的输入来自不连续的四个子集。最后,最后一个特征图的输入来自S2所有特征图。C3层有1516个可训练参数和156 000个连接。

层S4是与S2类似,大小为2*2,输出为16个5*5的特征图。S4层有32个可训练参数和2000个连接。

层C5是具有120个大小为5*5的卷积核的卷积层。每个单元连接到S4的所有16个特征图上的5*5邻域。这里,因为S4的特征图大小也是5*5,所以C5的输出大小是1*1。因此S4和C5之间是完全连接的。C5被标记为卷积层,而不是完全连接的层,是因为如果LeNet-5输入变得更大而其结构保持不变,则其输出大小会大于1*1,即不是完全连接的层了。C5层有48120个可训练连接。

F6层完全连接到C5,输出84张特征图。它有10164个可训练参数。这里84与输出层的设计有关。

原文:LeCun, Y.; Bottou, L.; Bengio, Y. & Haffner, P. (1998). Gradient-based learning applied to document recognition.Proceedings of the IEEE. 86(11): 2278 - 2324.]

Alexnet

论文:《ImageNet Classification with Deep Convolutional Neural Networks》

https://github.com/BVLC/caffe/blob/master/models/bvlc_alexnet/deploy.prototxt

AlexNet 不算池化层总共有 8 层,前 5 层为卷积层,其中第一、第二和第五层卷积都包含了一个最大池化层,后三层为全连接层。所以 AlexNet 的简略结构如下: 
输入>卷积>池化>卷积>池化>卷积>卷积>卷积>池化>全连接>全连接>全连接>输出

各层的结构和参数如下: 
C1层是个卷积层,其输入输出结构如下: 
输入: 227 x 227 x 3  滤波器大小: 11 x 11 x 3   滤波器个数:96 
输出: 55 x 55 x 96

P1层是C1后面的池化层,其输入输出结构如下: 
输入: 55 x 55 x 96  滤波器大小: 3 x 3   滤波器个数:96 
输出: 27 x 27 x 96

C2层是个卷积层,其输入输出结构如下: 
输入: 27 x 27 x 96  滤波器大小: 5 x 5 x 96   滤波器个数:256 
输出: 27 x 27 x 256

P2层是C2后面的池化层,其输入输出结构如下: 
输入: 27 x 27 x 256  滤波器大小: 3 x 3   滤波器个数:256 
输出: 13 x 13 x 256

C3层是个卷积层,其输入输出结构如下: 
输入: 13 x 13 x 256  滤波器大小: 3 x 3 x 256   滤波器个数:384 
输出: 13 x 13 x 384

C4层是个卷积层,其输入输出结构如下: 
输入: 13 x 13 x 384  滤波器大小: 3 x 3 x 384   滤波器个数:384 
输出: 13 x 13 x 384

C5层是个卷积层,其输入输出结构如下: 
输入: 13 x 13 x 384  滤波器大小: 3 x 3 x 384    滤波器个数:256 
输出: 13 x 13 x 256

P5层是C5后面的池化层,其输入输出结构如下: 
输入: 13 x 13 x 256  滤波器大小: 3 x 3     滤波器个数:256 
输出: 6 x 6 x 256

F6层是个全连接层,其输入输出结构如下: 
输入:6 x 6 x 256 
输出:4096

F7层是个全连接层,其输入输出结构如下: 
输入:4096 
输出:4096

F8层也是个全连接层,即输出层,其输入输出结构如下: 
输入:4096 
输出:1000

在论文中,输入图像大小为 224 x 224 x 3,实际为 227 x 227 x 3。各层输出采用 relu 进行激活。前五层卷积虽然计算量极大,但参数量并不如后三层的全连接层多,但前五层卷积层的作用却要比全连接层重要许多。

GoogleNet

googlenet[4][5],14年比赛冠军的model,这个model证明了一件事:用更多的卷积,更深的层次可以得到更好的结构。(当然,它并没有证明浅的层次不能达到这样的效果)

 

VGG

论文:Very Deep Convolutional Networks for Large-Scale Image Recognition

VGGå·ç§¯ç¥ç»ç½ç»æ¨¡å解æ

考虑到整个网络的精简结构显示,ReLU激活函数并没有被显示在上述结构中。上述结构中一些说明:

  • conv表示卷积层
  • FC表示全连接层
  • conv3表示卷积层使用3x3 filters
  • conv3-64表示 深度64
  • maxpool表示最大池化

 

Deep Residual Learning

参考:

 

深度学习笔记:CNN经典论文研读之AlexNet及其Tensorflow实现

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值