卷积神经网络(CNN)技术总结

0 CNN发展历史

1962年,Hubel和Wiesel 通过对猫脑视觉皮层的研究,首次提出了一种新的概念“感受野”,这对后来人工神经网络的发展有重要的启示作用。【参考论文: Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex[J]. The Journal of physiology, 1962, 160(1): 106-154.

1980年,Fukushima基于生物神经学的感受野理论提出了神经认知机和权重共享的卷积神经层,这被视为卷积神经网络的雏形。【参考论文:Fukushima K, Miyake S. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition[M]//Competition and cooperation in neural nets. Springer, Berlin, Heidelberg, 1982: 267-285.

1989年,LeCun结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络,并首次将卷积神经网络成功应用到美国邮局的手写字符识别系统中。【参考论文:LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.

1998年LeCun提出了卷积神经网络的经典网络模型LeNet-5,并再次提高手写字符识别的正确率。这是一个划时代、影响深远的卷积神经网络结构,卷积和池化两个全新概念由此提出。【参考论文: LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-base learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.

2012 年Alex Krizhevshy提出了一个8 层深的新卷积神经网络,该模型一举夺下2012 年ImageNet 比赛冠军,但并未有一个标准命名,人们以Alex的命名该网络为AlexNet。

自AlexNet 之后,新一轮的人工智能浪潮兴起。随后研究者从不同网络结构出发,陆续提出了各种性能越来越好的CNN模型。

2014年由牛津大学VGG 研究组提出的VGGNet,与AlexNet 类似,也是一种卷积神经网络,在AlexNet 的基础上,旨在通过加深网络提高性能。该模型在2014 年ILSVRC 定位和分类两个比赛上分别取得了第一名和第二名。与之前的网络结构相比,VGGNet错误率大幅下降。同时,该模型拓展性很强,迁移到其它图片数据上的泛化性非常好。除应用于最常见的特征提取(Feature Extractor)外,还被广泛应用于图像协同定位(Co-localization)、物体候选框生成、细粒度图像定位(Fine-grained Object Localization)等方面。

同样在2014年,与VGGNet模型同时被提出的还有GoogleNet。只不过GoogLeNet 是2014 年ILSVRC Classification 比赛冠军,VGGNet 是亚军,两个网络的TOP-5 错误率接近。2014年GoogLeNet 被称为Inception V1,这是一个22 层深的网络,其网络结构比VGGNet 更复杂。后来陆续又提出了Inception V2、Inception V3、Inception V4结构,我们将在后文详述。

2015年由来自Microsoft Research的4位学者提出的ResNet,在同年的ILSVRC竞赛中获得了图像分类和物体识别的优胜,论文于2016年发表在CVPR上。ResNet通过在标准的前馈神经网络上增加一个跳
跃从而绕过一些层,实现快捷连接(Shortcut Connection),解决了网络层数越多训练误差越大的问题,使网络的深度相较于之前的模型大幅增加。【参考论文:HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition,2016:770-778.

2016年提出的DenseNet作为CVPR2017年的Best Paper, 脱离了加深网络层数(ResNet)和加宽网络结构(Inception)来提升网络性能的定式思维,从特征的角度考虑,通过特征重用和旁路(Bypass)设置,既大幅度减少了网络的参数量,又在一定程度上缓解了gradient vanishing问题的产生.结合信息流和特征复用的假设,DenseNet当之无愧成为2017年计算机视觉顶会的年度最佳论文。【参考论文:HUANG G,LIU Z,MAATEN L V D,et al. Densely connected convolutional networks[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:1-9.

1 CNN基本原理

CNN的核心设计灵感来自于人视觉系统中一个叫感受野的(receptive field)概念,但仅限于借用了这一概念,其整体机制与人的视觉系统还是有很大的差别。
CNN的基本结构由输入层、卷积层(convolutional layer)、池化层(pooling layer,也称为采样层)、全连接层及输出层构成。

CNN由多层感知机(MLP)演变而来。MLP有多个全连接层串联而成,上一层的每个神经元的输出会全部连接到下一层的所有神经元作为输入。卷积神经网络相比于MLP的特殊性主要在于权值共享局部连接两个方面。权值共享使得CNN的网络结构更加类似于生物神经网络。局部连接不像MLP那样,第n-1层的每一神经元都与第n层的所有神经元连接,而是第n-1层的神经元与第n层的部分神经元之间连接。这两个特点的作用在于降低了网络模型的复杂度,减少了权值的数目。CNN由于其具有局部区域连接、权值共享、降采样(下采样)的结构特点,使得CNN在图像处理领域表现出色。

1.1 卷积核(Convolution Kernel)

卷积层由一组卷积核(即滤波器)组成,如果输入是二维数据,则卷积核可以视为二维数字矩阵。这是一个示例3x3卷积核:
在这里插入图片描述
以输入图像为例,卷积操作步骤如下:

  1. 在输入图像的某个局部区域上覆盖卷积核;
  2. 将卷积核中的值与图像中的对应像素的值相乘;
  3. 把上面的乘积加起来,得到的和是输出图像中目标像素的值;
  4. 对输入图像的所有位置重复此操作。

在这里插入图片描述
CNN 中的卷积核跟传统的卷积核本质没有什么不同。
一维信号的卷积,也就是
y t = ∑ k x t h t − k y_t=\sum_kx_t h_{t-k} yt=kxth

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值