CNN的发展历史(LeNet,Alexnet,VGGNet,GoogleNet,ReSNet)

欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld

关于卷积神经网络CNN,网络和文献中有非常多的资料,我在工作/研究中也用了好一段时间各种常见的model了,就想着简单整理一下,以备查阅之需。如果读者是初接触CNN,建议可以先看一看“Deep Learning(深度学习)学习笔记整理系列”中关于CNN的介绍[1],是介绍我们常说的Lenet为例,相信会对初学者有帮助。

  1. Lenet,1986年
  2. Alexnet,2012年
  3. GoogleNet,2014年
  4. VGG,2014年
  5. Deep Residual Learning,2015年

Lenet

就从Lenet说起,可以看下caffe中lenet的配置文件(点我),可以试着理解每一层的大小,和各种参数。由两个卷积层,两个池化层,以及两个全连接层组成。 卷积都是5*5的模板,stride=1,池化都是MAX。下图是一个类似的结构,可以帮助理解层次结构(和caffe不完全一致,不过基本上差不多)

这里写图片描述

Alexnet

2012年,Imagenet比赛冠军的model——Alexnet [2](以第一作者alex命名)。caffe的model文件在这里。说实话,这个model的意义比后面那些model都大很多,首先它证明了CNN在复杂模型下的有效性,然后GPU实现使得训练在可接受的时间范围内得到结果,确实让CNN和GPU都大火了一把,顺便推动了有监督DL的发展。

模型结构见下图,别看只有寥寥八层(不算input层),但是它有60M以上的参数总量,事实上在参数量上比后面的网络都大。

这里写图片描述

这个图有点点特殊的地方是卷积部分都是画成上下两块,意思是说吧这一层计算出来的feature map分开,但是前一层用到的数据要看连接的虚线,如图中input层之后的第一层第二层之间的虚线是分开的,是说二层上面的128map是由一层上面的48map计算的,下面同理;而第三层前面的虚线是完全交叉的,就是说每一个192map都是由前面的128+128=256map同时计算得到的。

Alexnet有一个特殊的计算层,LRN层,做的事是对当前层的输出结果做平滑处理。下面是我画的示意图:

这里写图片描述

前后几层(对应位置的点)对中间这一层做一下平滑约束,计算方法是:

这里写图片描述

具体打开Alexnet的每一阶段(含一次卷积主要计算)来看[2][3]:

(1)con - relu - pooling - LRN

这里写图片描述

具体计算都在图里面写了,要注意的是input层是227*227,而不是paper里面的224*224,这里可以算一下,主要是227可以整除后面的conv1计算,224不整除。如果一定要用224可以通过自动补边实现,不过在input就补边感觉没有意义,补得也是0。

(2)conv - relu - pool - LRN

这里写图片描述

和上面基本一样,唯独需要注意的是group=2,这个属性强行把前面结果的feature map分开,卷积部分分成两部分做。

(3)conv - relu

这里写图片描述

(4)conv-relu

这里写图片描述

(5)conv - relu - pool

这里写图片描述

(6)fc - relu - dropout

这里写图片描述

这里有一层特殊的dropout层,在alexnet中是说在训练的以1/2概率使得隐藏层的某些neuron的输出为0,这样就丢到了一半节点的输出,BP的时候也不更新这些节点。 
(7) 
fc - relu - dropout 
这里写图片描述
(8)fc - softmax 
这里写图片描述

以上图借用[3],感谢。

GoogleNet

googlenet[4][5],14年比赛冠军的model,这个model证明了一件事:用更多的卷积,更深的层次可以得到更好的结构。(当然,它并没有证明浅的层次不能达到这样的效果)

这里写图片描述

这个model基本上构成部件和alexnet差不多,不过中间有好几个inception的结构:

这里写图片描述

是说一分四,然后做一些不同大小的卷积,之后再堆叠feature map。

计算量如下图,可以看到参数总量并不大,但是计算次数是非常大的。 
这里写图片描述

VGG

VGG有很多个版本,也算是比较稳定和经典的model。它的特点也是连续conv多,计算量巨大(比前面几个都大很多)。具体的model结构可以参考[6],这里给一个简图。基本上组成构建就是前面alexnet用到的。 
这里写图片描述

下面是几个model的具体结构,可以查阅,很容易看懂。

这里写图片描述

Deep Residual Learning

这个model是2015年底最新给出的,也是15年的imagenet比赛冠军。可以说是进一步将conv进行到底,其特殊之处在于设计了“bottleneck”形式的block(有跨越几层的直连)。最深的model采用的152层!!下面是一个34层的例子,更深的model见表格。 
这里写图片描述 
其实这个model构成上更加简单,连LRN这样的layer都没有了。

这里写图片描述

block的构成见下图:

这里写图片描述

总结

OK,到这里把常见的最新的几个model都介绍完了,可以看到,目前cnn model的设计思路基本上朝着深度的网络以及更多的卷积计算方向发展。虽然有点暴力,但是效果上确实是提升了。当然,我认为以后会出现更优秀的model,方向应该不是更深,而是简化。是时候动一动卷积计算的形式了。

参考资料

[1] http://blog.csdn.net/zouxy09/article/details/8781543/ 
[2] ImageNet Classification with Deep Convolutional Neural Networks 
[3] http://blog.csdn.net/sunbaigui/article/details/39938097 
[4] http://blog.csdn.net/csyhhb/article/details/45967291 
[5] Going deeper with convolutions 
[6] VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

<think>嗯,用户想了解卷积神经网络(CNN)从LeNet开始的历史发展演变。我需要回忆一下CNN发展历程,然后整理关键的时间节点各个模型的改进点。首LeNet是早期的CNN模型,由Yann LeCun等人提出,用于手写数字识别。接下来,可能要考虑2012年的AlexNet,它通过ReLUDropout带来了突破。然后是VGGNet,其深层结构展示了深度的重要性。再往后,ResNet解决了梯度消失的问题,引入了残差连接。此外,还要提到Inception网络MobileNet等轻量化模型的发展。 用户可能需要了解每个阶段的改进动机技术细节,比如LeNet使用了卷积层池化层,而AlexNet引入了GPU加速训练。同时,需要注意引用提供的资料,比如引用[2]中LeCunBengio的论文,以及引用[3]中Bengio等人关于逐层训练的研究。可能需要检查引用中的内容是否涉及CNN发展,比如是否提到了LeNet或者后续模型的优化。 另外,用户的问题中提到了时间线,所以需要按时间顺序组织内容,突出每个关键模型的贡献。比如从1980年代到LeNet-5的提出,再到2010年代的AlexNet、VGG、ResNet等。还要考虑应用领域的扩展,比如从图像识别到其他领域如自然语言处理。 需要确保回答的结构清晰,分阶段描述,每个阶段的重要模型、技术改进影响。同时,生成的相关问题要围绕CNN历史、技术演变、应用扩展以及当前挑战等方面,帮助用户进一步探索。</think>### 卷积神经网络(CNN)的历史发展与演变 #### 1. **起源与早期探索(1980s-1998)** - **理论基础**: 卷积操作的概念源于神经科学对视觉皮层的研究,HubelWiesel发现视觉神经元对局部感受野的响应特性[^2]。 - **雏形模型**: 1980年代,福岛邦彦提出“Neocognitron”,首次引入局部感受野权值共享机制,成为CNN的雏形[^2]。 #### 2. **LeNet-5:首个实用化CNN(1998)** Yann LeCun等人提出LeNet-5,用于手写数字识别(MNIST数据集),其结构包含: - **卷积层**:提取局部特征,如边缘、角点。 - **池化层**(降采样):通过平均池化减少计算量。 - **全连接层**:用于分类。 ```python # LeNet-5的简化结构示意 model = Sequential([ Conv2D(6, (5,5), activation='tanh', input_shape=(32,32,1)), AveragePooling2D(), Conv2D(16, (5,5), activation='tanh'), AveragePooling2D(), Flatten(), Dense(120, activation='tanh'), Dense(84, activation='tanh'), Dense(10, activation='softmax') ]) ``` **改进点**:首次实现端到端训练,但受限于算力数据规模,应用范围较窄。 #### 3. **沉寂期与突破(2000s-2012)** - **GPU加速**:2010年代GPU的普及解决了大规模矩阵运算问题。 - **ReLU激活函数**:替代传统的Sigmoid/Tanh,缓解梯度消失问题[^3]。 - **Dropout正则化**:Hinton团队提出,防止过拟合。 #### 4. **AlexNet:深度CNN的里程碑(2012)** 在ImageNet竞赛中以**15.3%**错误率夺冠,核心改进: - 使用多GPU并行训练。 - 引入ReLU局部响应归一化(LRN)。 - 数据增强技术提升泛化能力。 #### 5. **网络深度化与结构创新(2013-2016)** - **VGGNet(2014)**: 通过堆叠$3×3$小卷积核构建16-19层网络,验证了深度对性能的提升。 - **Inception系列(2014-2016)**: GoogLeNet提出多分支并行结构(Inception模块),用$1×1$卷积降维,减少参数量。 - **ResNet(2015)**: 何恺明团队提出残差连接(Residual Block),解决深层网络梯度消失问题,首次训练超过100层的网络: $$ \mathcal{F}(x) + x \quad \text{(跳跃连接)} $$ #### 6. **轻量化与高效化(2017至今)** - **MobileNet(2017)**: 使用深度可分离卷积(Depthwise Separable Convolution),将计算量从$O(C_{in} \times C_{out} \times K^2)$降至$O(C_{in} \times K^2) + O(C_{in} \times C_{out})$,适合移动端部署。 - **Attention机制融合**: SENet(2017)引入通道注意力,动态调整特征重要性。 #### 7. **应用扩展与多模态融合** - **跨领域应用**:从图像分类扩展到目标检测(YOLO、Faster R-CNN)、语义分割(U-Net)、自然语言处理(TextCNN)。 - **多模态模型**:如CLIP(2021)将CNN与Transformer结合,实现图文跨模态学习。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值