classical CNN models : LeNet-5 模型结构详解

原创 2018年04月16日 16:13:28

LeNet - 5

相关文献:

Gradient-Based Learning Applied to Document Recognition

YANN LECUN, MEMBER, IEEE, LÉON BOTTOU, YOSHUA BENGIO, AND PATRICK HAFFNER

PROCEEDINGS OF THE IEEE, VOL. 86, NO. 11, NOVEMBER 1998

网络结构


这里写图片描述

在文章的比较环节里面还给出了其他的lenet,比如lenet-1,lenet-4等,但是最常见的还是上面这种lenet,也就是LeNet-5。

这个网络是最早的具有现在的CNN的基本环节和框架的卷积神经网络。可以看出,LeNet-5包含如下一些技术:

  1. 权值共享,也就是卷积的kernel来代替全连接,从而减少参数规模的方法。
  2. subsampling,降采样,实际上也就是池化pooling操作。
  3. 用RBF,径向基函数,来作为loss函数进行训练,已经有了很像图像分类的损失函数了。
  4. 在convolution层之后做全连接FC层,使得网络符合:卷积-池化-全连接 的基本形式,后来的ImageNet比赛中胜出的的各种CNN,如alexnet,vgg等基本都是这种采用了这种模式。

下面按照网络的层顺序说明其结构:

该网络目的是手写字母或者数字,如邮编,的识别问题,实际上就是一个已知所有字符模式的一个匹配,或者分类的问题。因为从MNIST上测试,也就是说,图片输入大小为28×28,这里首先把输入做成32×32,把28的图像放在中间,目的是在第一层做5×5的convolution提取特征的时候,边角的位置的特征也能被提取到,因为一次5×5过后,32就变成了28(也就是现在常说的convolution的mode中full,same,valid的valid模式)。然后得到了6个28×28的feature map,对这些fm也就是C1层做降采样,这里的降采样和max pooling等不太一样,它的做法是这样:采样后的fm的每个像素都只和上面的2×2的邻域有关,首先把对应于S2中一个unit 的四个input相加,然后给它们乘上一个可以训练的系数,再加上bias,然后过一个sigmoidal的激励函数。2×2的receptive field是不重叠的,这和pooling是一致的。这样就得到了14×14的6个fm,也就是S2。然后对S2再做convolution,仍然是5×5,但是这里需要注意,C3中的每个fm不是和S2中所有的fm都有连接的。(现在的CNN都是后面和前面卷积层所有的fm都有连接)。其连接方式如下图:


这里写图片描述

column对应的是上一层的6个,row对应于下一层的16个。可以看出,这16个里,前面的6个,即0–5,是由相邻的三个fm组合变换而成,而中间的6个,即6-11,是相邻的四个fm,而再后面的三个是不相邻的四个fm,最后一个,即15,是所有的fm都连接得到的。

为何要采用这样的连接。作者给出两点理由:首先,可以降低连接数目(毕竟当时还没有这么多框架和GPU,参数量规模不要过大还是一个需要考虑的因素);另外,更重要的一个理由是,作者希望通过这种方式学得一个可以互补的fm,通过强行破坏网络结构中,也就是上下层连接中的这种对称性。

这样可以得到C3。对C3进行一个降采样,方法同上,得到S4,16个5×5的fm,然后在进行一个5×5的卷积,得到C5,由于是valid,所以C5已经变成了1×1的fm图像,也就是已经变成了scalar。而且变成了120个fm,这里的120个每个都和前面的16个相连,没有之前6到16的那种方式。这里还把该层看成是C5,也就是第5个卷积层。(lenet-5的5就是表示它有5个convolution层)当然也可以认为这是一个FC。之所以不叫FC是因为这里的输入是32,刚好在该层变成了1×1,如果换别的数据,那么就不是scalar而仍是fm了。然后过了一个F6,成了84的全连接。这里之所以要用84,是因为每个待识别的label都用一个模式来表征,这个模式就是7×12的bitmap,(如下图),所以为了和这些stylized image匹配,所以设定为84。


这里写图片描述

最后一层用欧式径向基函数,ERBF,来计算和每一个类别的距离,距离越近输出越小,也就是说明越接近某个模式。


这里写图片描述

这样用模式图匹配在数字上看不太出优势,但是在ascii码上就比较明显,因为有很多confusable的比如:O,o,0,或者小写的l和数字1。这时候用匹配就有用了。

一直到F6层,所有的激活函数都是sigmoid squashing function,也就是tanh函数,双曲正切:


这里写图片描述

2018年04月16日16:10:38

昨天,准备了今天的颠倒疯狂;酝酿了明天的沉默凯旋绝望;喝吧,你又不知从何来为何来;喝吧,你又不知因何去去何方。 —— 诗人 奥马尔 哈亚姆

版权声明:本文为博主原创文章,未经博主允许不得转载。copyright@江户川柯壮 https://blog.csdn.net/edogawachia/article/details/79962045

一个男生的自我修养

男生有钱到底有多重要? (一)   男生有钱有多重要,有钱就代表着在很多很多的事上有自由,相当的自由。 工作的自由,生活的自由,爱情的自由,交友的自由,运动的自由,追求理想的自由,寻...
  • qq_33048603
  • qq_33048603
  • 2016-09-03 14:18:12
  • 2864

卷积神经网络(一):LeNet5的基本结构

卷积神经网络LeNet5的结构介绍。
  • xuanyuansen
  • xuanyuansen
  • 2014-12-08 10:44:43
  • 61169

深度学习 CNN卷积神经网络 LeNet-5详解

卷积神经网络( Convolutional Neural Network, CNN): 是一种常见的深度学习架构,受生物自然视觉认知机制(动物视觉皮层细胞负责检测光学信号)启发而来,是一...
  • happyorg
  • happyorg
  • 2017-10-18 16:04:35
  • 1378

心理学的166个效应

Note:紫色为读后注释 1.阿基米德与酝酿效应    在古希腊,国王让人做了一顶纯金的王冠,但他又怀疑工匠在王冠中掺了银子。可问题是这顶王冠与当初交给金匠的一样重,谁也不知道金匠到底有没有捣鬼。...
  • zeusuperman1
  • zeusuperman1
  • 2013-02-22 15:56:11
  • 14205

逆风飞扬 -- 吴士宏

此文章来自网络~ 作者:吴士宏   本书描写了一个人的成长史。    它是一个从"生而自卑"到"个性飞扬"的故事,当然具有传奇色彩。    未受过正规高等教育,多年在歧视中感受地位的卑...
  • Jack_Wong2010
  • Jack_Wong2010
  • 2013-05-10 16:09:41
  • 14855

1.CNN学习笔记——理解结构,LeNet5介绍

卷积神经网络CNN的结构理解,LeNet5介绍
  • Kaido0
  • Kaido0
  • 2016-11-14 17:49:29
  • 13797

深度学习 1. CNN的构建和解释--最简单的CNN构造(LeNet-5)# By deepLearnToolbox-master

CNN的构建和解释--最简单的CNN构造(LeNet-5)# By deepLearnToolbox-master
  • qq_20259459
  • qq_20259459
  • 2017-01-03 16:29:19
  • 5305

心理学的166个效应大全

1阿基米德与酝酿效应 在古希腊,国王让人做了一顶纯金的王冠,但他又怀疑工匠在王冠中掺了银子。可问题是这顶王冠与当初交给金匠的一样重,谁也不知道金匠到底有没有捣鬼。国王把这个难题交给了阿基米德。...
  • Aweijun360
  • Aweijun360
  • 2011-10-27 20:14:44
  • 11189

从LeNet-5看卷积神经网络CNNs

一、概述: 自从2010年Hinton大神团队使用深度学习(Deep Learning)算法在 ImageNet 比赛中获得冠军之后,深度学习算法的触角在计算机视觉、语音识别、自然语言处理等领域不...
  • wangjian1204
  • wangjian1204
  • 2016-01-07 23:10:30
  • 7863

LeNet-5网络结构解析

参考文章: 文章1 文章2 文章3特殊性 神经元间的连接是非全连接的 同一层中某些神经元之间的连接的权重是共享的(即相同的) 权值共享 使用同一个Kernel池化 转:http://blog...
  • acm_fighting
  • acm_fighting
  • 2017-03-14 15:38:31
  • 3260
收藏助手
不良信息举报
您举报文章:classical CNN models : LeNet-5 模型结构详解
举报原因:
原因补充:

(最多只允许输入30个字)