卷积神经网络发展历程

最新推荐文章于 2024-07-31 22:43:56 发布

weixin_38498942

最新推荐文章于 2024-07-31 22:43:56 发布

阅读量4k

点赞数 1

分类专栏： sdk

本文链接：https://blog.csdn.net/weixin_38498942/article/details/106661057

版权

sdk 专栏收录该内容

281 篇文章 30 订阅

订阅专栏

经典的LeNet诞生于1998年。然而之后CNN的锋芒开始被SVM等手工设计的特征盖过。随着ReLU和dropout的提出，以及GPU和大数据带来的历史机遇，CNN在2012年迎来了历史突破–AlexNet，从此CNN呈现爆炸式发展。
从此，Deep Learning一发不可收拾，ILSVRC每年都不断被Deep Learning刷榜，如图所示，随着模型变得越来越深，Top-5的错误率也越来越低，目前降到了2.25%附近（2017，SENet），而在同样的ImageNet数据集合上，人眼的辨识错误率大概在5.1%，也就是目前的Deep Learning模型的识别能力已经超过了人眼。而下图中的这些模型，也是Deep Learning视觉发展的里程碑式代表。

在这里插入图片描述

CNN主要的经典结构包括：LeNet、AlexNet、ZFNet、VGG、NIN、GoogleNet、ResNet、SENet等，最古老的CNN模型。1985年，Rumelhart和Hinton等人提出了反向传播（Back Propagation，BP）算法（也有说1986年的，指的是他们另一篇paper：Learning representations by back-propagating errors)，使得神经网络的训练变得简单可行，目前还是比Cortes和Vapnic的Support-Vector Networks稍落后一点，不过以Deep Learning最近的发展劲头来看，超越指日可待。

1、LeNet5
LeNet是卷积神经网络的祖师爷LeCun在1998年提出，用于解决手写数字识别的视觉任务。自那时起，CNN的最基本的架构就定下来了：卷积层、池化层、全连接层。如今各大深度学习框架中所使用的LeNet都是简化改进过的LeNet-5（-5表示具有5个层），和原始的LeNet有些许不同，比如把激活函数改为了现在很常用的ReLu。
1998年的LeNet5[4]标注着CNN的真正面世，但是这个模型在后来的一段时间并未能火起来，主要原因是费机器（计算跟不上），而且其他的算法（SVM）也能达到类似的效果甚至超过。但是LeNet最大的贡献是：定义了CNN的基本结构，是CNN的鼻祖。
1）LeNet的结构：
LeNet5包含Input、卷积层1、池化层1、卷积层2、池化层2、全连接层、输出层。
2）LeNet的特点
LeNet5当时的特性有如下几点：
每个卷积层包含三个部分：卷积、池化和非线性激活函数使用卷积提取空间特征（起初被称为感受野，未提“卷积”二字）降采样（Subsample）的平均池化层（Average Pooling）双曲正切（Tanh）的激活函数MLP作为最后的分类器层与层之间的稀疏连接减少计算复杂性。
3）LeNet的突出贡献
LeNet定义了CNN的基本结构，是CNN的鼻祖。

2.AlexNet
AlexNet在2012年ImageNet竞赛中以超过第二名10.9个百分点的绝对优势一举夺冠，从此深度学习和卷积神经网络名声鹊起，深度学习的研究如雨后春笋般出现，AlexNet的出现可谓是卷积神经网络的王者归来。

1).AlexNet的结构
alexNet为8层深度网络，其中5层卷积层和3层全连接层，不计LRN层和池化层。如下图所示：
在这里插入图片描述
2).AlexNet的特点
（1）ReLU作为激活函数。
ReLU为非饱和函数，论文中验证其效果在较深的网络超过了SIgmoid，成功解决了SIgmoid在网络较深时的梯度弥散问题。
（2）Dropout避免模型过拟合
类似于浅层学习算法的中集成算法，该方法通过让全连接层的神经元（该模型在前两个全连接层引入Dropout）以一定的概率失去活性（比如0.5）失活的神经元不再参与前向和反向传播，相当于约有一半的神经元不再起作用。在测试的时候，让所有神经元的输出乘0.5。Dropout的引用，有效缓解了模型的过拟合。
（3）重叠的最大池化
之前的CNN中普遍使用平均池化，而Alexnet全部使用最大池化，避免平均池化的模糊化效果。并且，池化的步长小于核尺寸，这样使得池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。
（4）提出LRN层
提出LRN（局部响应归一化）层，对局部神经元的活动创建竞争机制，使得响应较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。
（5）GPU加速
（6）数据增强
随机从256256的原始图像中截取224224大小的区域（以及水平翻转的镜像），相当于增强了（256-224）*（256-224）*2=2048倍的数据量。使用了数据增强后，减轻过拟合，提升泛化能力。避免因为原始数据量的大小使得参数众多的CNN陷入过拟合中。
AlexNet的贡献
AlexNet的贡献也就是AlexNet的新特点：
（1）Relu做激活函数，代替Sigmoid来加快SGD的收敛速度
（2）dropout避免过拟合
（3）重叠最大池化 overlapping Max Pooling
(4)LRN(局部响应归一化)，利用临近的数据做归一化，加速训练。
（5）GPU加速
（6）数据增强，增加模型泛化能力

3.ZF-Net
ZFNet是2013ImageNet分类任务的冠军，其网络结构没什么改进，只是调了调参，性能较Alex提升了不少。ZF-Net只是将AlexNet第一层卷积核由11变成7，步长由4变为2，第3，4，5卷积层转变为384，384，256。这一年的ImageNet还是比较平静的一届，其冠军ZF-Net的名堂也没其他届的经典网络架构响亮。

4.VGG-Nets
VGG-Nets是由牛津大学VGG（Visual Geometry Group）提出，是2014年ImageNet竞赛定位任务的第一名和分类任务的第二名的中的基础网络。VGG可以看成是加深版本的AlexNet. 都是conv layer + FC layer，在当时看来这是一个非常深的网络了，因为层数高达十多层，我们从其论文名字就知道了（《Very Deep Convolutional Networks for Large-Scale Visual Recognition》），当然以现在的目光看来VGG真的称不上是一个very deep的网络。VGGNet探索了CNN的深度及其性能之间的关系，通过反复堆叠33的小型卷积核和22的最大池化层，VGGNet成功的构筑了16-19层深的CNN。

5.GoogleNet
Googe Inception Net首次出现在ILSVRC2014的比赛中(和VGGNet同年)，以较大的优势获得冠军。那一届的GoogleNet通常被称为Inception V1，Inception V1的特点是控制了计算量的参数量的同时，获得了非常好的性能-top5错误率6.67%, 这主要归功于GoogleNet中引入一个新的网络结构Inception模块，所以GoogleNet又被称为Inception V1(后面还有改进版V2、V3、V4)架构中有22层深，V1比VGGNet和AlexNet都深，但是它只有500万的参数量，计算量也只有15亿次浮点运算，在参数量和计算量下降的同时保证了准确率，可以说是非常优秀并且实用的模型。