卷积神经网络（CNN）技术总结

最新推荐文章于 2024-07-12 11:45:29 发布

tyhj_sf

最新推荐文章于 2024-07-12 11:45:29 发布

阅读量1.9k

点赞数

分类专栏： ML理论系列文章标签： cnn 人工智能深度学习卷积神经网络

本文链接：https://blog.csdn.net/tyhj_sf/article/details/120928231

版权

0 CNN发展历史

1962年，Hubel和Wiesel 通过对猫脑视觉皮层的研究，首次提出了一种新的概念“感受野”，这对后来人工神经网络的发展有重要的启示作用。【参考论文： Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex[J]. The Journal of physiology, 1962, 160(1): 106-154.】

1980年，Fukushima基于生物神经学的感受野理论提出了神经认知机和权重共享的卷积神经层，这被视为卷积神经网络的雏形。【参考论文：Fukushima K, Miyake S. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition[M]//Competition and cooperation in neural nets. Springer, Berlin, Heidelberg, 1982: 267-285.】

1989年，LeCun结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络，并首次将卷积神经网络成功应用到美国邮局的手写字符识别系统中。【参考论文：LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.】

1998年LeCun提出了卷积神经网络的经典网络模型LeNet-5，并再次提高手写字符识别的正确率。这是一个划时代、影响深远的卷积神经网络结构，卷积和池化两个全新概念由此提出。【参考论文： LECUN Y，BOTTOU L，BENGIO Y，et al. Gradient-base learning applied to document recognition［J］. Proceedings of the IEEE，1998，86（11）：2278-2324.】

2012 年Alex Krizhevshy提出了一个8 层深的新卷积神经网络，该模型一举夺下2012 年ImageNet 比赛冠军，但并未有一个标准命名，人们以Alex的命名该网络为AlexNet。

自AlexNet 之后，新一轮的人工智能浪潮兴起。随后研究者从不同网络结构出发，陆续提出了各种性能越来越好的CNN模型。

2014年由牛津大学VGG 研究组提出的VGGNet，与AlexNet 类似，也是一种卷积神经网络，在AlexNet 的基础上，旨在通过加深网络提高性能。该模型在2014 年ILSVRC 定位和分类两个比赛上分别取得了第一名和第二名。与之前的网络结构相比，VGGNet错误率大幅下降。同时，该模型拓展性很强，迁移到其它图片数据上的泛化性非常好。除应用于最常见的特征提取（Feature Extractor）外，还被广泛应用于图像协同定位（Co-localization）、物体候选框生成、细粒度图像定位（Fine-grained Object Localization）等方面。

同样在2014年，与VGGNet模型同时被提出的还有GoogleNet。只不过GoogLeNet 是2014 年ILSVRC Classification 比赛冠军，VGGNet 是亚军，两个网络的TOP-5 错误率接近。2014年GoogLeNet 被称为Inception V1，这是一个22 层深的网络，其网络结构比VGGNet 更复杂。后来陆续又提出了Inception V2、Inception V3、Inception V4结构，我们将在后文详述。

2015年由来自Microsoft Research的4位学者提出的ResNet，在同年的ILSVRC竞赛中获得了图像分类和物体识别的优胜，论文于2016年发表在CVPR上。ResNet通过在标准的前馈神经网络上增加一个跳
跃从而绕过一些层，实现快捷连接（Shortcut Connection），解决了网络层数越多训练误差越大的问题，使网络的深度相较于之前的模型大幅增加。【参考论文：HE K，ZHANG X，REN S，et al. Deep residual learning for image recognition［C］. Proceedings of the IEEE conference on computer vision and pattern recognition，2016：770-778.】

2016年提出的DenseNet作为CVPR2017年的Best Paper, 脱离了加深网络层数(ResNet)和加宽网络结构(Inception)来提升网络性能的定式思维,从特征的角度考虑,通过特征重用和旁路(Bypass)设置,既大幅度减少了网络的参数量,又在一定程度上缓解了gradient vanishing问题的产生.结合信息流和特征复用的假设,DenseNet当之无愧成为2017年计算机视觉顶会的年度最佳论文。【参考论文：HUANG G，LIU Z，MAATEN L V D，et al. Densely connected convolutional networks［C］. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2017：1-9.】

1 CNN基本原理

CNN的核心设计灵感来自于人视觉系统中一个叫感受野的（receptive field）概念，但仅限于借用了这一概念，其整体机制与人的视觉系统还是有很大的差别。
CNN的基本结构由输入层、卷积层（convolutional layer）、池化层（pooling layer，也称为采样层）、全连接层及输出层构成。

CNN由多层感知机（MLP）演变而来。MLP有多个全连接层串联而成，上一层的每个神经元的输出会全部连接到下一层的所有神经元作为输入。卷积神经网络相比于MLP的特殊性主要在于权值共享与局部连接两个方面。权值共享使得CNN的网络结构更加类似于生物神经网络。局部连接不像MLP那样，第n-1层的每一神经元都与第n层的所有神经元连接，而是第n-1层的神经元与第n层的部分神经元之间连接。这两个特点的作用在于降低了网络模型的复杂度，减少了权值的数目。CNN由于其具有局部区域连接、权值共享、降采样(下采样)的结构特点，使得CNN在图像处理领域表现出色。