卷积神经网络（CNN）

最新推荐文章于 2023-04-09 15:27:34 发布

medusa_zj

最新推荐文章于 2023-04-09 15:27:34 发布

阅读量860

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/medusa_zj/article/details/103450830

版权

深度学习专栏收录该内容

19 篇文章 3 订阅

订阅专栏

自己整理了一下有关CNN的资料，大多参考别的博主的，博主的链接已在文中附上，有些可能写的急，未标明，如有需要，请联系我。

经典卷积神经网络（CNN）

LeNet-5模型：第一个成功应用于数字数字识别的卷积神经网络模型
AlexNet 模型：2012 ILSVRC比赛远超第2名的CNN，比LeNet更深，用多层小卷积层叠加替换单大卷积层。
GoogleNet 模型
VGGNet 模型：2014 ILSVRC比赛中的模型，图像识别略差于GoogLeNet，但是在很多图像转化学习问题(比如object detection)上效果奇好
ResNet模型
在这里插入图片描述

卷积神经网络结构

从神经网络到卷积神经网络（CNN）

传统神经网络

参考：参考博客
全连接神经网络中，每相邻两层之间的每个神经元之间都是有边相连的。当输入层的特征维度变得很高时，这时全连接网络需要训练的参数就会增大很多，计算速度就会变得很慢，例如一张黑白的的手写数字图片，输入层的神经元就有784个，如下图所示：

若在中间只使用一层隐藏层，参数就有好多，所以传统的神经网络处理图像有参数过多问题。

CNN

卷积神经网络（Convolutional Neural Network,CNN）中，卷积层的神经元只与前一层的部分神经元节点相连，即它的神经元间的连接是非全连接的，且同一层中某些神经元之间的连接的权重和偏移是共享的（即相同的），这样大量地减少了需要训练参数的数量。

CNN结构

卷积神经网络CNN的结构一般包含这几个层：
输入层：用于数据的输入
卷积层：使用卷积核进行特征提取和特征映射
激励层：由于卷积也是一种线性运算，因此需要增加非线性映射
池化层：进行下采样，对特征图稀疏处理，减少数据运算量。
全连接层：通常在CNN的尾部进行重新拟合，减少特征信息的损失
输出层：用于输出结果
当然中间还可以使用一些其他的功能层:
归一化层（Batch Normalization）：在CNN中对特征的归一化
切分层：对某些（图片）数据的进行分区域的单独学习
融合层：对独立进行特征学习的分支进行融合

输入层

对于黑白的的图片，CNN的输入是一个二维神经元，如下图所示：
在这里插入图片描述
而对于RGB格式的图片，CNN的输入则是一个的三维神经元（RGB中的每一个颜色通道都有一个的矩阵），如下图所示：

该层要做的处理主要是对原始图像数据进行预处理，其中包括：
　　• 去均值：把输入数据各个维度都中心化为0，如下图所示，其目的就是把样本的中心拉回到坐标系原点上。
　　• 归一化：幅度归一化到同样的范围，如下所示，即减少各维度数据取值范围的差异而带来的干扰，比如，我们有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，如果直接使用这两个特征是有问题的，好的做法就是归一化，即A和B的数据都变为0到1的范围。
　　• PCA/白化：用PCA降维；白化是对数据各个特征轴上的幅度归一化
去均值与归一化效果图：
在这里插入图片描述
去相关与白化效果图：

卷积层

在卷积层中有几个重要的概念：

local receptive fields（感受视野）
shared weights（共享权值）
假设输入的是一个的的二维神经元，我们定义一个 local receptive fields（感受视野），即隐藏层的神经元与输入层的个神经元相连，这个 $5 * 5$ 的区域就称之为Local Receptive Fields，如下图所示：

具体计算如下：

矩阵称为卷积核 ；将感受视野对输入的扫描间隔称为步长（stride）；当步长比较大时（stride>1），为了扫描到边缘的一些特征，感受视野可能会“出界”，这时需要对边界扩充(pad)，步长和边界扩充值的大小由用户来定义。
卷积核的大小由用户来定义，即定义的感受视野的大小；卷积核的权重矩阵的值，便是卷积神经网络的参数，为了有一个偏移项，卷积核可附带一个偏移项，它们的初值可以随机来生成，可通过训练进行变化。
扫描生成的下一层神经元矩阵称为一个feature map (特征映射图)，同一个 feature map 上的神经元使用的卷积核是相同的，因此这些神经元 shared weights（权值共享），共享卷积核中的权值和附带的偏移。
一个 feature map 对应一个卷积核，若我们使用 3 个不同的卷积核，可以输出3个feature map：

另外附一张多个卷积核的计算：

附一个卷积核个数：参考链接
有多少个卷积核，经过卷积就会产生多少个feature map，（下图红线标出部分）
如果上一层输出64个featuremap ，下一层的filter 的channel 就会变为64（必须这样），一个filter做卷积的话将会在64个featuremap组成的64channel上做，如果有128个filter，将再次生成128个featuremap，而不是128*64

附：Dropout
Dropout可以比较有效的缓解过拟合的发生，在一定程度上达到正则化的效果。
假设我们要训练这样一个神经网络：

输入是x输出是y，正常的流程是：我们首先把x通过网络前向传播，然后把误差反向传播以决定如何更新参数让网络进行学习。使用Dropout之后，过程变成如下：
（1）首先随机（临时）删掉网络中一半的隐藏神经元，输入输出神经元保持不变（图3中虚线为部分临时被删除的神经元）

（2）然后把输入x通过修改后的网络前向传播，然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后，在没有被删除的神经元上按照随机梯度下降法更新对应的参数（w，b）。
（3）然后继续重复这一过程：. 恢复被删掉的神经元（此时被删除的神经元保持原样，而没有被删除的神经元已经有所更新）. 从隐藏层神经元中随机选择一个一半大小的子集临时删除掉（备份被删除神经元的参数）。. 对一小批训练样本，先前向传播然后反向传播损失并根据随机梯度下降法更新参数（w，b）（没有被删除的那一部分参数得到更新，删除的神经元参数保持被删除前的结果）。不断重复这一过程。
注意只在训练阶段。

激励层

激励层主要对卷积层的输出进行一个非线性映射，因为卷积层的计算还是一种线性计算。使用的激励函数一般为ReLu函数：
在这里插入图片描述
卷积层和激励层通常合并在一起称为“卷积层”。
（别人）激励层的实践经验：
　　①不要用sigmoid！不要用sigmoid！不要用sigmoid！
　　② 首先试RELU，因为快，但要小心点
　　③ 如果2失效，请用Leaky ReLU或者Maxout
　　④ 某些情况下tanh倒是有不错的结果，但是很少

池化层

当输入经过卷积层时，若感受视野比较小，步长stride比较小，得到的feature map （特征图）还是比较大，可以通过池化层来对每一个 feature map 进行降维操作，输出的深度还是不变的，依然为 feature map 的个数。
池化层也有一个“池化视野（filter）”来对feature map矩阵进行扫描，对“池化视野”中的矩阵值进行计算，一般有两种计算方式：

Max pooling：取“池化视野”矩阵中的最大值
Average pooling：取“池化视野”矩阵中的平均值
下图采用的是最大值：

如果有三个特征图，则：

池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。

全连接层

两层之间所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的：
在这里插入图片描述
附：卷积层到全连接层的转换
参考：参考链接
例如经过卷积，relu后得到3x3x5的输出。那它是怎么样把3x3x5的输出，转换成1x4096的形式？

可以看做是在中间做了一个卷积，如下图：

3x3x5的filter 去卷积激活函数的输出，得到的结果就是一个fully connected layer 的一个神经元的输出，这个输出就是一个值。因为我们有4096个神经元。我们实际就是用一个3x3x5x4096的卷积层去卷积激活函数的输出。
以VGG-16再举个例子吧，对224x224x3的输入，最后一层卷积可得输出为7x7x512，如后层是一层含4096个神经元的FC，则可用卷积核为7x7x512x4096的全局卷积来实现这一全连接运算过程。它把特征representation整合到一起，输出为一个值。

LeNet-5模型

在这里插入图片描述
LeNet-5共有7层，不包含输入，每层都包含可训练参数；每个层有多个Feature Map，每个FeatureMap通过一种卷积滤波器提取输入的一种特征，然后每个FeatureMap有多个神经元。

INPUT层-输入层

首先是数据 INPUT 层，输入图像的尺寸统一归一化为32*32。
注意：本层不算LeNet-5的网络结构，传统上，不将输入层视为网络层次结构之一。

C1层-卷积层

输入图片： $32 * 32$
卷积核大小： $5 * 5$
卷积核种类：6
输出featuremap大小： $28 * 28 （ 32 - 5 + 1 ） = 28$
神经元数量： $28 * 28 * 6$
可训练参数： $（ 5 * 5 + 1) * 6$ （每个滤波器 $5 * 5 = 25$ 个unit参数和一个bias参数，一共6个滤波器）
连接数： $（ 5 * 5 + 1 ） * 6 * 28 * 28 = 122304$
详细说明：对输入图像进行第一次卷积运算（使用 6 个大小为 $5 * 5$ 的卷积核），得到6个C1特征图（6个大小为 $28 * 28$ 的 feature maps, $32 - 5 + 1 = 28$ ）。我们再来看看需要多少个参数，卷积核的大小为 $5 * 5$ ，总共就有 $6 * （ 5 * 5 + 1 ） = 156$ 个参数，其中+1是表示一个核有一个bias。对于卷积层C1，C1内的每个像素都与输入图像中的 $5 * 5$ 个像素和1个bias有连接，所以总共有 $156 * 28 * 28 = 122304$ 个连接（connection）。有122304个连接，但是我们只需要学习156个参数，主要是通过权值共享实现的。

S2层-池化层（下采样层）

输入： $28 * 28$
采样区域： $2 * 2$
采样方式：4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。结果通过sigmoid
采样种类：6
输出featureMap大小： $14 * 14 （ 28 / 2 ）$
神经元数量： $14 * 14 * 6$
可训练参数： $2 * 6$ （和的权+偏置）
连接数： $（ 2 * 2 + 1 ） * 6 * 14 * 14$
S2中每个特征图的大小是C1中特征图大小的 $1 / 4$ 。
详细说明：第一次卷积之后紧接着就是池化运算，使用 $2 * 2$ 核进行池化，于是得到了S2，6个 $14 * 14$ 的特征图 $（ 28 / 2 = 14 ）$ 。S2这个pooling层是对C1中的 $2 * 2$ 区域内的像素求和乘以一个权值系数再加上一个偏置，然后将这个结果再做一次映射。于是每个池化核有两个训练参数，所以共有 $2 * 6 = 12$ 个训练参数，但是有 $5 * 14 * 14 * 6 = 5880$ 个连接。

C3层-卷积层

输入：S2中所有6个或者几个特征map组合
卷积核大小： $5 * 5$
卷积核种类：16
输出featureMap大小： $10 * 10 (14 - 5 + 1) = 10$
C3中的每个特征map是连接到S2中的所有6个或者几个特征map的，表示本层的特征map是上一层提取到的特征map的不同组合。
存在的一个方式是：C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。则：可训练参数： $6 * (3 * 5 * 5 + 1) + 6 * (4 * 5 * 5 + 1) + 3 * (4 * 5 * 5 + 1) + 1 * (6 * 5 * 5 + 1) = 1516$
连接数： $10 * 10 * 1516 = 151600$

S4层-池化层（下采样层）

输入： $10 * 10$
采样区域： $2 * 2$
采样方式：4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。结果通过sigmoid
采样种类：16
输出featureMap大小： $5 * 5 (10 / 2)$
神经元数量： $5 * 5 * 16 = 400$
可训练参数： $2 * 16 = 32$ （和的权+偏置）
连接数： $16 * （ 2 * 2 + 1 ） * 5 * 5 = 2000$
S4中每个特征图的大小是C3中特征图大小的 $1 / 4$
详细说明：S4是pooling层，窗口大小仍然是 $2 * 2$ ，共计16个feature map，C3层的16个10x10的图分别进行以2x2为单位的池化得到16个5x5的特征图。这一层有2x16共32个训练参数，5x5x5x16=2000个连接。连接的方式与S2层类似。

C5层-卷积层

输入：S4层的全部16个单元特征map（与s4全相连）
卷积核大小： $5 * 5$
卷积核种类：120
输出featureMap大小： $1 * 1 （ 5 - 5 + 1 ）$
可训练参数/连接： $120 * （ 16 * 5 * 5 + 1 ） = 48120$

F6层-全连接层

输入：c5 120维向量
计算方式：计算输入向量和权重向量之间的点积，再加上一个偏置，结果通过sigmoid函数输出。
可训练参数: $84 * (120 + 1) = 10164$
详细说明：6层是全连接层。F6层有84个节点，对应于一个7x12的比特图，-1表示白色，1表示黑色，这样每个符号的比特图的黑白色就对应于一个编码。该层的训练参数和连接数是 $(120 + 1) x 84 = 10164$ 。

AlexNet模型

参考：参考博客
 参考博客2
参考博客3
参考博客4
AlexNet模型为文章《ImageNet Classification with Deep Convolutional Neural Networks》介绍的网络结构。
AlexNet有60 million个参数和65000个神经元，五层卷积，三层全连接网络，最终的输出层是1000通道的softmax。AlexNet利用了两块GPU进行计算，大大提高了运算效率。

网络结构

在这里插入图片描述
图分为上下两个部分的网络，论文中提到这两部分网络是分别对应两个GPU，只有到了特定的网络层后才需要两块GPU进行交互，这种设置完全是利用两块GPU来提高运算的效率，其实在网络结构上差异不是很大。为了更方便的理解，我们假设现在只有一块GPU或者我们用CPU进行运算，我们从这个稍微简化点的方向区分析这个网络结构。网络总共的层数为8层，5层卷积，3层全连接层。

各层介绍

在这里插入图片描述

注意：第六层的运算过程中，采用的滤波器的尺寸( $6 * 6 * 256$ )与待处理的feature map的尺寸( $6 * 6 * 256$ )相同，即滤波器中的每个系数只与feature map中的一个像素值相乘；而其它卷积层中，每个滤波器的系数都会与多个feature map中像素值相乘；因此，将第六层称为全连接层。

AlexNet主要使用到的新技术点

（1）成功使用ReLU作为CNN的激活函数，并验证其效果在较深的网络超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题。虽然ReLU激活函数在很久之前就被提出了，但是直到AlexNet的出现才将其发扬光大。
（2）训练时使用Dropout随机忽略一部分神经元，以避免模型过拟合。Dropout虽有单独的论文论述，但是AlexNet将其实用化，通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。
（3）在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小，这样池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。
（4）提出了LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。.

LRN层（局部响应归一化）

在这里插入图片描述
例：
import tensorflow as tf
import numpy as np
x = np.array([i for i in range(1,33)]).reshape([2,2,2,4])
y = tf.nn.lrn(input=x,depth_radius=2,bias=0,alpha=1,beta=1)

with tf.Session() as sess:
print(x)
print(’#############’)
print(y.eval())
结果为：
在这里插入图片描述
解释：

VGGNet模型

参考：参考链接
 参考链接1
参考链接2
VGGNet 模型和 AlexNet模型在结构上没多大变化，在卷积层部位增加了多个卷积层。AlexNet（上）和 VGGNet （下）的对比如下图所示：
在这里插入图片描述
VGG中根据卷积核大小和卷积层数目的不同，可分为A，A-LRN,B,C,D,E共6个配置(ConvNet Configuration)，其中以D,E两种配置较为常用，分别称为VGG16和VGG19

VGG16

VGG16共包含：
13个卷积层（Convolutional Layer），分别用conv3-XXX表示
3个全连接层（Fully connected Layer）,分别用FC-XXXX表示
5个池化层（Pool layer）,分别用maxpool表示
其中，卷积层和全连接层具有权重系数，因此也被称为权重层，总数目为13+3=16，这即是VGG16中16的来源。(池化层不涉及权重，因此不属于权重层，不被计数)。

特点

1、卷积层均采用相同的卷积核参数
卷积层均表示为conv3-XXX，其中conv3说明该卷积层采用的卷积核的尺寸(kernel size)是3，即宽（width）和高（height）均为3， $3 * 3$ 是很小的卷积核尺寸，结合其它参数（步幅stride=1，填充方式padding=same），这样就能够使得每一个卷积层(张量)与前一层（张量）保持相同的宽和高。XXX代表卷积层的通道数。
2、池化层均采用相同的池化核参数
池化层的参数均为2×2，步幅stride=2，max的池化方式。
3、模型是由若干卷积层和池化层堆叠（stack）的方式构成，比较容易形成较深的网络结构。

在这里插入图片描述

解释一下为什么从输入 $224 * 224$ 经过卷积还是 $224 * 224$

我们假设蓝色框（输入是 $300 * 300$ ）是一个RGB图像，橙色是一个 $3 * 3 * 3$ 的卷积核，我们对一个三维的27个数求和，然后扫过去，按照第一部分算的得出来的是一维的 $298 * 298$ 的矩阵（因为卷积核也是三维所以结果是一维）；然后经过Padding（填充），回到了 $300 * 300 * 1$ ；然后，VGG16这一层安置有64个卷积核，那么，原来的 $300 * 300 * 1$ 变成 $300 * 300 * 64$ 。

GoogLeNet模型

一般来说，提升网络性能最直接的办法就是增加网络深度和宽度，这也就意味着更巨量的参数。但是，巨量参数容易产生过拟合，也会大大增加计算量。文章认为解决上述两个缺点的根本方法是将全连接甚至一般的卷积都转化为稀疏连接。所以，为了既能保持网络结构的稀疏性，又能利用密集矩阵的高计算性能，论文提出了inception的结构！

网络结构

在这里插入图片描述
具体解释看连接

深度方面：层数更深，文章采用了22层，为了避免上述提到的梯度消失问题，GoogLeNet巧妙的在不同深度处增加了两个loss来保证梯度回传消失的现象。
宽度方面：采用了Inception结构，这是一种网中网（Network In Network）的结构，即原来的结点也是一个网络。

inception结构

Inception的结构如图所示，其中1*1卷积主要用来降维，用了Inception之后整个网络结构的宽度和深度都可扩大，能够带来2-3倍的性能提升。
在这里插入图片描述

采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合；
之所以卷积核大小采用1、3和5，主要是为了方便对齐。设定卷积步长stride=1之后，只要分别设定pad=0、1、2，那么卷积之后便可以得到相同维度的特征，然后这些特征就可以直接拼接在一起了；
文章说很多地方都表明pooling挺有效，所以Inception里面也嵌入了。
网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3x3和5x5卷积的比例也要增加。

Inception的作用：代替人工确定卷积层中的过滤器类型或者确定是否需要创建卷积层和池化层，即：不需要人为的决定使用哪个过滤器，是否需要池化层等，由网络自行决定这些参数，可以给网络添加所有可能值，将输出连接起来，网络自己学习它需要什么样的参数。

ResNet模型

从经验来看，网络的深度对模型的性能至关重要，当增加网络层数后，网络可以进行更加复杂的特征模式的提取，所以当模型更深时理论上可以取得更好的结果，从图2中也可以看出网络越深而效果越好的一个实践证据。但是更深的网络其性能一定会更好吗？实验发现深度网络出现了退化问题（Degradation problem）：网络深度增加时，网络准确度出现饱和，甚至出现下降。这个现象可以在图3中直观看出来：56层的网络比20层网络效果还要差。这不会是过拟合问题，因为56层网络的训练误差同样高。我们知道深层网络存在着梯度消失或者爆炸的问题，这使得深度学习模型很难训练。但是现在已经存在一些技术手段如BatchNorm来缓解这个问题。因此，出现深度网络的退化问题是非常令人诧异的。
在这里插入图片描述

网络结构

ResNet网络是参考了VGG19网络，在其基础上进行了修改，并通过短路机制加入了残差单元。
在这里插入图片描述
变化主要体现在ResNet直接使用stride=2的卷积做下采样，并且用global average pool层替换了全连接层。ResNet的一个重要设计原则是：当feature map大小降低一半时，feature map的数量增加一倍，这保持了网络层的复杂度。

残差网络

在这里插入图片描述
这两种结构分别针对ResNet34（左图）和ResNet50/101/152（右图）。
实际中，考虑计算的成本，对残差块做了计算优化，即将两个3x3的卷积层替换为1x1 + 3x3 + 1x1，如右图所示。新结构中的中间3x3的卷积层首先在一个降维1x1卷积层下减少了计算，然后在另一个1x1的卷积层下做了还原，既保持了精度又减少了计算量。第一个1x1的卷积把256维channel降到64维，然后在最后通过1x1卷积恢复

medusa_zj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络（CNN）

卷积神经网络（CNN）经典卷积神经网络（CNN）卷积神经网络结构从神经网络到卷积神经网络（CNN）传统神经网络CNNCNN结构输入层卷积层激励层池化层全连接层LeNet-5模型INPUT层-输入层C1层-卷积层S2层-池化层（下采样层）C3层-卷积层S4层-池化层（下采样层）C5层-卷积层F6层-全连接层经典卷积神经网络（CNN）LeNet-5模型：第一个成功应用于数字数字识别的卷积神经网络模...
复制链接

扫一扫

专栏目录