深度学习（三）cnn原理与结构

最新推荐文章于 2021-03-31 13:47:52 发布

米翁方

最新推荐文章于 2021-03-31 13:47:52 发布

阅读量473

点赞数

分类专栏：基础知识深度学习

本文链接：https://blog.csdn.net/u013247002/article/details/84856622

版权

深度学习同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

基础知识

10 篇文章 1 订阅

订阅专栏

写在前面：所有关于深度学习的基础知识均为鄙人的笔记分享，很多内容摘自大神们的博客或论文，因时间太长记不清了分别来自哪里。若有侵权，请联系鄙人邮箱min.wenfang@qq.com

以LeNet-5为例说明：

输入：32*32的手写字体图片，这些手写字体包含0~9数字，也就是相当于10个类别的图片

输出：分类结果，0~9之间的一个数

因此我们可以知道，这是一个多分类问题，总共有十个类，因此神经网络的最后输出层必然是SoftMax问题，然后神经元的个数是10个。LeNet-5结构：

输入层：32*32的图片，也就是相当于1024个神经元

C1层：paper作者，选择6个特征卷积核，然后卷积核大小选择5*5，这样我们可以得到6个特征图，然后每个特征图的大小为32-5+1=28，也就是神经元的个数由1024减小到了28*28=784。

S2层：这就是下采样层，也就是使用最大池化进行下采样，池化的size，选择(2,2)，也就是相当于对C1层28*28的图片，进行分块，每个块的大小为2*2，这样我们可以得到14*14个块，然后我们统计每个块中，最大的值作为下采样的新像素，因此我们可以得到S1结果为：14*14大小的图片，共有6个这样的图片。

C3层：卷积层，这一层我们选择卷积核的大小依旧为5*5，据此我们可以得到新的图片大小为14-5+1=10，然后我们希望可以得到16张特征图。那么问题来了？这一层是最难理解的，我们知道S2包含：6张14*14大小的图片，我们希望这一层得到的结果是：16张10*10的图片。这16张图片的每一张，是通过S2的6张图片进行加权组合得到的，具体是怎么组合的呢？问题如下图所示：

为了解释这个问题，我们先从简单的开始，我现在假设输入6特征图的大小是5*5的，分别用6个5*5的卷积核进行卷积，得到6个卷积结果图片大小为1*1，如下图所示：

为了简便起见，我这里先做一些标号的定义：我们假设输入第i个特征图的各个像素值为x1i，x2i……x25i，因为每个特征图有25个像素。因此第I个特征图经过5*5的图片卷积后，得到的卷积结果图片的像素值Pi可以表示成：

这个是卷积公式，不解释。因此对于上面的P1~P6的计算方法，这个就是直接根据公式。然后我们把P1~P6相加起来，也就是：

P=P1+P2+……P6

把上面的Pi的计算公式，代入上式，那么我们可以得到：

P=WX

其中X就是输入的那6张5*5特征图片的各个像素点值，而W就是我们需要学习的参数，也就相当于6个5*5的卷积核，当然它包含着6*（5*5）个参数。因此我们的输出特征图就是：

Out=f(P+b)

这个就是从S2到C3的计算方法，其中b表示偏置项，f为激活函数。

我们回归到原来的问题：有6张输入14*14的特征图片，我们希望用5*5的卷积核，然后最后我们希望得到一张10*10的输出特征图片？

根据上面的过程，也就是其实我们用5*5的卷积核去卷积每一张输入的特征图，当然每张特征图的卷积核参数是不一样的，也就是不共享，因此我们就相当于需要6*(5*5)个参数。对每一张输入特征图进行卷积后，我们得到6张10*10，新图片，这个时候，我们把这6张图片相加在一起，然后加一个偏置项b，然后用激活函数进行映射，就可以得到一张10*10的输出特征图了。

而我们希望得到16张10*10的输出特征图，因此我们就需要卷积参数个数为16*(6*(5*5))=16*6*(5*5)个参数。总之，C3层每个图片是通过S2图片进行卷积后，然后相加，并且加上偏置b,最后在进行激活函数映射得到的结果。

S4层：下采样层，比较简单，也是知己对C3的16张10*10的图片进行最大池化，池化块的大小为2*2。因此最后S4层为16张大小为5*5的图片。至此我们的神经元个数已经减少为：16*5*5=400。

C5层：我们继续用5*5的卷积核进行卷积，然后我们希望得到120个特征图。这样C5层图片的大小为5-5+1=1，也就是相当于1个神经元，120个特征图，因此最后只剩下120个神经元了。这个时候，神经元的个数已经够少的了，后面我们就可以直接利用全连接神经网络，进行这120个神经元的后续处理，后面具体要怎么搞，只要懂多层感知器的都懂了，不解释。

上面的结构，只是一种参考，在现实使用中，每一层特征图需要多少个，卷积核大小选择，还有池化的时候采样率要多少，等这些都是变化的，这就是所谓的CNN调参，我们需要学会灵活多变。

比如我们可以把上面的结构改为:C1层卷积核大小为7*7，然后把C3层卷积核大小改为3*3等，然后特征图的个数也是自己选，说不定得到手写字体识别的精度比上面那个还高，这也是有可能的，总之一句话：需要学会灵活多变，需要学会CNN的调参。

米翁方

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习（三）cnn原理与结构

写在前面：所有关于深度学习的基础知识均为鄙人的笔记分享，很多内容摘自大神们的博客或论文，因时间太长记不清了分别来自哪里。若有侵权，请联系鄙人邮箱min.wenfang@qq.com以LeNet-5为例说明：输入：32*32的手写字体图片，这些手写字体包含0~9数字，也就是相当于10个类别的图片输出：分类结果，0~9之间的一个数因此我们可以知道，这是一个多分类问题，总共有十个...
复制链接

扫一扫