CNN五大经典模型:Lenet，Alexnet，Googlenet，VGG，DRL

最新推荐文章于 2023-11-25 21:14:09 发布

landi111

最新推荐文章于 2023-11-25 21:14:09 发布

阅读量647

点赞数

文章标签：图像

本文链接：https://blog.csdn.net/weixin_42572978/article/details/94554700

版权

Lenet，1986年

Alexnet，2012年

GoogleNet，2014年

VGG，2014年

Deep Residual Learning，2015年

Lenet

网址：https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_train_test.prototxt

LeNet-5包含七层，不包括输入，每一层都包含可训练参数（权重），输入数据是32*32像素的图像。卷积层将用Cx表示，子采样层则被标记为Sx，完全连接层被标记为Fx，其中x是层索引。

层C1是具有六个5*5的卷积核的卷积层（convolution），特征映射的大小为28*28，这样可以防止输入图像的信息掉出卷积核边界。C1包含156个可训练参数和122304个连接。

层S2是输出6个大小为14*14的特征图的子采样层（subsampling/pooling）。每个特征地图中的每个单元连接到C1中的对应特征地图中的2*2个邻域。S2中单位的四个输入相加，然后乘以可训练系数（权重），然后加到可训练偏差（bias）。结果通过S形函数传递。由于2*2个感受域不重叠，因此S2中的特征图只有C1中的特征图的一半行数和列数。S2层有12个可训练参数和5880个连接。

层C3是具有16个5-5的卷积核的卷积层。前六个C3特征图的输入是S2中的三个特征图的每个连续子集，接下来的六个特征图的输入则来自四个连续子集的输入，接下来的三个特征图的输入来自不连续的四个子集。最后，最后一个特征图的输入来自S2所有特征图。C3层有1516个可训练参数和156 000个连接。

层S4是与S2类似，大小为2*2，输出为16个5*5的特征图。S4层有32个可训练参数和2000个连接。

层C5是具有120个大小为5*5的卷积核的卷积层。每个单元连接到S4的所有16个特征图上的5*5邻域。这里，因为S4的特征图大小也是5*5，所以C5的输出大小是1*1。因此S4和C5之间是完全连接的。C5被标记为卷积层，而不是完全连接的层，是因为如果LeNet-5输入变得更大而其结构保持不变，则其输出大小会大于1*1，即不是完全连接的层了。C5层有48120个可训练连接。

F6层完全连接到C5，输出84张特征图。它有10164个可训练参数。这里84与输出层的设计有关。

原文：LeCun, Y.; Bottou, L.; Bengio, Y. & Haffner, P. (1998). Gradient-based learning applied to document recognition.Proceedings of the IEEE. 86(11): 2278 - 2324.]

Alexnet

论文：《ImageNet Classification with Deep Convolutional Neural Networks》

https://github.com/BVLC/caffe/blob/master/models/bvlc_alexnet/deploy.prototxt

AlexNet 不算池化层总共有 8 层，前 5 层为卷积层，其中第一、第二和第五层卷积都包含了一个最大池化层，后三层为全连接层。所以 AlexNet 的简略结构如下：
输入>卷积>池化>卷积>池化>卷积>卷积>卷积>池化>全连接>全连接>全连接>输出

各层的结构和参数如下：
C1层是个卷积层，其输入输出结构如下：
输入： 227 x 227 x 3 滤波器大小： 11 x 11 x 3 滤波器个数：96
输出： 55 x 55 x 96

P1层是C1后面的池化层，其输入输出结构如下：
输入： 55 x 55 x 96 滤波器大小： 3 x 3 滤波器个数：96
输出： 27 x 27 x 96

C2层是个卷积层，其输入输出结构如下：
输入： 27 x 27 x 96 滤波器大小： 5 x 5 x 96 滤波器个数：256
输出： 27 x 27 x 256

P2层是C2后面的池化层，其输入输出结构如下：
输入： 27 x 27 x 256 滤波器大小： 3 x 3 滤波器个数：256
输出： 13 x 13 x 256

C3层是个卷积层，其输入输出结构如下：
输入： 13 x 13 x 256 滤波器大小： 3 x 3 x 256 滤波器个数：384
输出： 13 x 13 x 384

C4层是个卷积层，其输入输出结构如下：
输入： 13 x 13 x 384 滤波器大小： 3 x 3 x 384 滤波器个数：384
输出： 13 x 13 x 384

C5层是个卷积层，其输入输出结构如下：
输入： 13 x 13 x 384 滤波器大小： 3 x 3 x 384 滤波器个数：256
输出： 13 x 13 x 256

P5层是C5后面的池化层，其输入输出结构如下：
输入： 13 x 13 x 256 滤波器大小： 3 x 3 滤波器个数：256
输出： 6 x 6 x 256

F6层是个全连接层，其输入输出结构如下：
输入：6 x 6 x 256
输出：4096

F7层是个全连接层，其输入输出结构如下：
输入：4096
输出：4096

F8层也是个全连接层，即输出层，其输入输出结构如下：
输入：4096
输出：1000

在论文中，输入图像大小为 224 x 224 x 3，实际为 227 x 227 x 3。各层输出采用 relu 进行激活。前五层卷积虽然计算量极大，但参数量并不如后三层的全连接层多，但前五层卷积层的作用却要比全连接层重要许多。

GoogleNet

googlenet[4][5]，14年比赛冠军的model，这个model证明了一件事：用更多的卷积，更深的层次可以得到更好的结构。（当然，它并没有证明浅的层次不能达到这样的效果）

VGG

论文：Very Deep Convolutional Networks for Large-Scale Image Recognition

考虑到整个网络的精简结构显示，ReLU激活函数并没有被显示在上述结构中。上述结构中一些说明：

conv表示卷积层
FC表示全连接层
conv3表示卷积层使用3x3 filters
conv3-64表示深度64
maxpool表示最大池化

Deep Residual Learning

参考：

深度学习笔记：CNN经典论文研读之AlexNet及其Tensorflow实现

landi111

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
CNN五大经典模型:Lenet，Alexnet，Googlenet，VGG，DRL

Lenet，1986年Alexnet，2012年GoogleNet，2014年VGG，2014年Deep Residual Learning，2015年Lenet网址：https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_train_test.prototxtLeNet-5包含七层，不包括输入，...
复制链接

扫一扫