详解卷积神经网络CNN

最新推荐文章于 2023-06-27 15:06:22 发布

置顶积跬步以至千里。

最新推荐文章于 2023-06-27 15:06:22 发布

阅读量639

点赞数 2

分类专栏：机器学习文章标签：神经网络深度学习机器学习卷积

本文链接：https://blog.csdn.net/SpiritedAway1106/article/details/113931976

版权

机器学习专栏收录该内容

13 篇文章 5 订阅

订阅专栏

文章目录

1. 为什么需要卷积神经网络

我们前面已经讲过全连接神经网络的基本结构，以及其强大的数据表达能力，我们能够通过合理的设计网络结构，帮助我们实现复杂的工作。

图像分类是图像处理中十分常见的任务，我们的大脑从出生就开始训练这件事情，通过观察周围环境或者图片，很容易识别出场景中的各种对象，如下图

我们很快就判断出这张图片里有狗，气球，帘布等，如果任务是做猫狗分类，此时我们很确定的说，这是一张狗的图片。

这样的图片在计算机看来是由像素矩阵构成的，我们希望全连接神经网络也能够帮助我们完成图像分类工作，但实际面临的问题是，以一张 $1000 * 1000$ 像素的彩色图片来说，每个像素都有 $R G B$ 三个参数来表示颜色信息，因此该神经网络的输入层有 $1000 * 1000 * 3$ 个参数，我们假设网络的第一层有 $1000$ 个神经元，则需要训练的参数有 $(1000 * 1000 * 3) * 1000 = 3000000000$ 个，也就是说，仅第一层神经网络就需要训练30亿个参数！！！这会导致我们需要大量的训练数据，且很容易造成过拟合，且处理这些数据需要大量的内存，我们几乎很难完成这样的网络学习。另外，全连接神经网络需要将像素矩阵拉平，无法保留图片的空间信息。

事实上，我们能够识别出来图像中的狗狗，并不是因为看到了气球或者图片里的其他东西，而是因为我们通过以往的认知，归纳出了狗狗的身体特征，如毛发，脸，嘴巴和爪子等，通过对比这些特征，我们很确信的认为在图里看到了一只狗狗。因此我们考虑希望神经元也可以提取狗狗的一些关键特征，神经网络只需要观察该图片中是否具有这些特征来判断该图是否为狗狗的图片。

另外，在提取特征的时候，我们不需要观察整张图片，比如某个神经元用来检测图片中是否有狗狗的鼻子，它只需要包含狗鼻子的一小块像素数据就可以了，我们并不需要将这个神经元与图片所有的像素点相关联，且我们希望该神经元能够检测出现在图片不同位置的该特征。

最后，在不丢失图片关键特征的前提下，缩小图片并不会影响我们对图片的判断，这样又可以减少图片参数。

基于以上分析，我们希望神经网络能够

提取关键特征
保留关键特征的前提下，减少图片维度
基于特征，正确识别图片类型

卷积神经网络 $C N N$ 很好的帮助我们解决了这些问题，它包含卷积层、池化层和全连接层，其中卷积层负责特征提取，池化层负责数据降维，全连接层则根据最终提取的特征数据进行任务分类，输出预测结果。接下来我们将详细介绍每一层是如何工作的。

2. 卷积层

2.1 卷积计算过程

卷积层用来做卷积计算，用于提取图像特征，经过卷积得到的图均叫做特征图。我们假设输入的图片是 $5 * 5 * 1$ 的单通道图片，分别对应图片的宽度，高度和通道数，我们使用一个 $3 * 3 * 1$ 的卷积核对该图片进行卷积，将得到一个 $3 * 3 * 1$ 的特征图，如下图所示：

卷积计算方式为，从输入图像的左上角开始，将卷积核覆盖在输入图中，对应位置的数据相乘后在进行相加(每个卷积核需要有一个 $B i a s$ ，为了方便描述卷积计算过程，这里我将忽略 $B i a s$ )，就得到了特征图的第一个像素值，如下图所示

先将对应位置的元素相乘有

$\begin{bmatrix} 1*1 & 0 * 0 & 0*0 \\ 0*0 & 1*1 & 0*0 \\0*1 & 0*0 & 1*1 \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\0 & 0 & 1 \end{bmatrix}$

再将矩阵的所有值相加即可得到特征图的左上角值： $3$

然后将卷积核从输入图中向右移动一步，在进行相乘和相加操作，得到特征图的第二个值: $0$ , 依次进行该操作，就可以得出特征图的所有值了，下面的动图很清晰的描述了卷积计算过程。

需要注意的是，卷积计算后得到的数值需要通过激活函数激活，才是特征图的真实数值，关于常用的激活函数类型以及优缺点，在BP算法详细推导及分析一文中已有相关介绍，这里不再赘述，这里我们选用 $R e l u$ 激活函数。由于该步相对卷积计算来说过于简单，不再单独强调卷积之后的激活计算。

2.2 多维卷积

我们现在已经知道了如何对二维的灰度图像进行卷积，现在我们看下如何对具有 $R G B$ 三通道的彩色图像进行卷积。如下图，对一个 $5 * 5 * 3$ 的图像进行卷积，为了保证每个通道都能被正确计算，我们必须使用与输入图像通道数一致的卷积核，这里我们使用了一个 $3 * 3 * 3$ 的卷积核，将得到了一个 $3 * 3 * 1$ 的特征图

计算方式为卷积核只在宽度和高度方向上移动，卷积核覆盖到的地方对应数据相乘，将乘积之后的所有数据相加即可，当然这个卷积核也可以有一个 $B i a s$ ，需要将卷积计算的和加上 $B i a s$ 就是特征图的结果值了，这跟二维的卷积操作是一致的。

注意，使用一个卷积核得到的是 $\color{red}3*3*1$ 的特征图！

同时，可以设定多个卷积核，多个卷积核的结果沿通道方向排列，如下图所示

通过以上分析，可以了解到卷积操作需要遵循以下规则

卷积核的通道数必须与被卷积图的通道数一致
卷积得到的特征图的通道数跟所采用的的卷积核个数保持一致

2.3 特征图大小计算

我们尝试归纳出特征图大小的计算方式，我们先进行以下规定

输入的图像为 $W * H$
卷积核大小为 $F_w* F_h$
卷积核每次移动的步数 $S t r i d e s$ 是可以指定的，设为 $S_w,S_h)$ ，表示在宽度和高度的移动步数
输出特征图的大小为 $O_w* O_h$
特征图的通道数只跟卷积核的个数有关：特征图的通道数=卷积核个数。与特征图的宽和高无关，因此这里讨论特征图大小时，暂不考虑通道数

则有以下关系式成立

$\begin{aligned}O_w &= floor\bigg(\frac{W-F_w}{S_w} \bigg)+1 \\ O_h &= floor\bigg(\frac{H-F_h}{S_h} \bigg)+1 \end{aligned}$

证明如下：

设卷积核在原图上的一个 $W$ 方向能够移动总次数为 $k_w$ ，每移动一次会产生一个卷积输出，由于卷积核首次覆盖输入图 $W$ 方向的时候也会产生卷积输出，因此应有 $O_w = k_w+1$ 。

移动 $k_w$ 次之后，移动步长占用的长度为 $S_w* k_w$ ，卷积核占用的长度为 $F_w$ ，则应有 $S_w* k_w+F_w \leq W$ 成立。

此时有 $k_w \leq \frac{W-F_w}{S_w}$ 则 $k_w = floor\bigg(\frac{W-F_w}{S_w} \bigg)$

因此 $O_w = floor\bigg(\frac{W-F_w}{S_w} \bigg)+1$ 同理有 $O_h = floor\bigg(\frac{H-F_h}{S_h} \bigg)+1$

对于上面的例子，输入图像为 $5 * 5$ ，卷积核为 $3 * 3$ ，移动步长 $(1, 1)$ ，根据公式可知，输出的特征图大小为 $3 * 3$

2.4 Padding

我们以步长为 $(1, 1)$ 作为研究对象，则此时卷积之后的特征图大小为 $W-F_w+1)*(H-F_h+1)$ ，会发现每做一次卷积，得到的特征图都会减少，之前我们用 $3 * 3$ 的卷积核卷积 $5 * 5$ 的输入图得到了 $3 * 3$ 的特征图，如果使用一个 $2 * 2$ 的卷积核对这个特征图继续做卷积操作，则得到一个 $2 * 2$ 的卷积图，这可能不是我们想要的。

另外，我们通过观察图 $1$ 的卷积过程会发现，位于边缘的像素被卷积计算的次数相对较少，这会让我们丢失一些图像边缘位置的信息。

往往我们通过在图片四周补零的方式来处理，这种处理方式叫做 $zero\ padding$ ，用 $p$ 表示补零数，如下图，我们对输入图的四周各补 $1$ 个零，即 $p = 1$ ，则相当于输入图大小变成了 $(5 + 2 * 1) * (5 + 2 * 1)$ ，利用公式可计算出特征图大小为 $5 * 5$

当然，对于这个例子也可以多补几个零，至于要补多少，我们往往有两种选择: $V A L I D$ 和 $S A M E$ 。

$V A L I D$ 表示不填充零，即 $p = 0$

$S A M E$ 表示卷积之后的特征图大小跟输入图大小相同，即 $O_w=W+2p_w-F_w+1=W,H_w=H+2p_w-F_h+1=H$ , 可以得到 $p_w=\frac{F_w-1}{2},p_h=\frac{F_h-1}{2}$ 。因此，我们往往要求使用的卷积核的大小 $F_w、F_h$ 均为奇数，这样可以保证四周可以填充相同数量的零。需要注意的是卷积之后的特征图大小跟输入图大小相同，仅在 $S t r i d e s = (1, 1)$ 时才成立，也可以理解为，当步长大于 $1$ 时，补零数仍为 $p_w=\frac{F_w-1}{2},p_h=\frac{F_h-1}{2}$ ，则此时有

$\begin{aligned}O_w &= floor\bigg(\frac{W+2p_w-F_w}{S_w} \bigg)+1 = floor(\frac{W-1}{S_w})+1\\ O_h &= floor\bigg(\frac{H+2p_h-F_h}{S_h} \bigg)+1 =floor(\frac{H-1}{S_h})+1\end{aligned}$

上面的例子，输入图像 $5 * 5$ , 卷积核为 $3 * 3$ ，步长为 $(1, 1)$ ，则 $p = (1, 1)$ (表示宽和高方向两边各补 $1$ 个 $0$ )，此时特征图为 $(5 * 5)$ ，如果步长为 $(2, 2)$ ，则特征图为 $(3 * 3)$

因此，引入 $\ padding$ 操作之后，特征图的大小最终可表示为

$\begin{aligned}O_w &= \begin{cases} floor(\frac{W-1}{S_w})+1 ,padding="SAME"\\ \\ floor\bigg(\frac{W-F_w}{S_w} \bigg)+1 ,padding="VALID"\end{cases}\\\\ O_h &= \begin{cases}floor(\frac{H-1}{S_h})+1,padding="SAME"\\\\ floor\bigg(\frac{H-F_h}{S_h} \bigg)+1,padding="VALID" \end{cases}\end{aligned}$

2.5 感受野

感受野 $\ Field)$ 是指卷积神经网络各输出特征图中的每个像素点(也可以叫做神经元，稍后会介绍原因)，在原始输入图片上映射区域的大小。假设输入图像大小为 $5 * 5$ ，卷积步长为 $(1, 1)$ ，使用两层 $3 * 3$ 的卷积核，经过两次卷积，得到 $1 * 1$ 的特征图

第一次卷积得到一个 $3 * 3$ 的特征图，特征图左上角的像素点对应原图中的橙色区域，因此这个像素点的感受野为 $3 * 3$ 。该特征图再经过一个 $3 * 3$ 卷积核卷积之后，得到 $1 * 1$ 的特征图，观察该图可知这个像素点对应的感受野为 $5 * 5$ 。

当然，我们也可以直接选择一个 $5 * 5$ 的卷积核对原图进行卷积，得到一个 $1 * 1$ 的特征图，对应的这个像素点的感受野也是 $5 * 5$ 。

两种卷积方式都能得到感受野是 $5 * 5$ 的像素点，区别在于，使用2个 $3 * 3$ 的卷积核，参数总数为 $3 * 3 * 2 = 18$ 个，使用一个 $5 * 5$ 的卷积核需要 $5 * 5 * 1 = 25$ 个。因此我们可以尽量选择多个小的卷积核来替代一个较大的卷积核。

2.6 权值共享与参数学习

为了方便描述以及绘图，我们以输入图为 $3 * 3$ ，卷积核为 $2 * 2$ ，步长为 $(1, 1)$ 的卷积运算为例，将得到一个 $2 * 2$ 的特征图。

根据卷积的计算过程，我们可以用神经网络的表述方式来理解卷积操作，将输入图的矩阵拉直，成为神经网络的输入，卷积核则相当于一个权重矩阵(矩阵的各个参数值是需要学习得到的)，特征图的每个元素值相当于神经元的输出，如下图右侧所示，左侧则是一个全连接的神经网络。

通过对比两个图不难发现，卷积神经网络相比全连接神经网络，少了很多连接关系，相比于全连接，这种连接方式叫做局部连接，当然这并不是本质的差异，因为我们可以将这些缺少的连接线的权重值设为 $0$ , 这个差异就不存在了。

比较本质的差异是权值共享，全连接神经网络的每个连接线都需要设置权重并利用后向传播分别进行权值更新，而卷积神经网络的部分权重值是共享的。针对上图，全连接神经网络需要学习 $9 * 4 = 36$ 个权重值，而卷积神经网络只需要学习 $4$ 个参数。

通过卷积神经网络图也能发现，输入图的边缘数据被使用的次数较少，如 $a_{11}、a_{13}$ 等只被使用了一次，最中间的元素 $a_{22}$ 则被使用了4次

权值共享是卷积核作为特征提取器的必然结果，可以将卷积核看做一个如下图所示的神经元，该神经元用于检测图片的某一个特征，该神经元以卷积核大小的空间扫描图形，从而观察所扫描区域是否具有该特征或者具有该特征的程度。扫描图像的过程，就是不断调整该神经元输入得到不同特征图输出值的过程。

特征图的参数是需要学习得到的，仍使用后向传播算法进行，关于后向传播之前已经详细介绍过，这里不再单独介绍。卷积神经网络引入了局部连接和权值共享的机制，在后向传播时稍有不同，为了便于理解局部连接机制对后向传播的影响，我们用权值为 $0$ 的连接线(图中灰色连接线)将卷积层扩展为全连接网络，如下图所示，这样我们就可以按照全连接神经网络的后向传播算法进行求解。

这样理解的另外一个好处是，我们可以得到一个权重的稀疏矩阵

$\begin{bmatrix} w_{11} & w_{12} & 0 & w_{21} & w_{22} & 0 & 0 &0&0 \\ 0&w_{11}&w_{12}&0&w_{21}&w_{22} &0&0&0 \\0&0&0&w_{11}&w_{12}&0&w_{21}&w_{22}&0\\0&0&0&0&w_{11}&w_{12}&0&w_{21}&w_{22} \end{bmatrix}$

输入

$\begin{bmatrix} a_{11} & a_{12}& a_{13}& a_{21}& a_{22}& a_{23}& a_{31}& a_{32}& a_{33} \end{bmatrix}^T$

则输出

$Z = W X$

这也跟全连接网络是保持一致的，且这样的全连接网络具有了稀疏性。从这个角度理解卷积网络显得特别容易，甚至比全连接网络还要简单，只是有一些区别于全连接网络的数据处理罢了。

关于权值共享对后向传播的影响，只需要保证这些要共享的参数初始化和更新保持一致即可。以上图中紫色线条为例，图中共有四条紫色的线，对应的权重分别为 $w_{21},w_{32},w_{53},w_{64}$ ( $w_{ab}$ 表示第 $a$ 个输入与第 $b$ 个输出之间的连接权重)反向传播时，误差对四个权重的偏导数分别为

$\begin{aligned}\frac{\partial E}{\partial w_{21}} &= \frac{\partial E}{\partial z_{11}}\frac{\partial z_{11}}{\partial w_{21}} = \frac{\partial E}{\partial z_{11}}a_{12}\\\frac{\partial E}{\partial w_{32}} &= \frac{\partial E}{\partial z_{12}}\frac{\partial z_{12}}{\partial w_{32}} = \frac{\partial E}{\partial z_{12}}a_{13} \\\frac{\partial E}{\partial w_{53}} &= \frac{\partial E}{\partial z_{21}}\frac{\partial z_{21}}{\partial w_{53}} = \frac{\partial E}{\partial z_{21}}a_{22}\\\frac{\partial E}{\partial w_{64}} &= \frac{\partial E}{\partial z_{22}}\frac{\partial z_{22}}{\partial w_{64}} = \frac{\partial E}{\partial z_{22}}a_{23} \end{aligned}$

由于四个权重值要求共享，因此我们只需要保证 $w_{21},w_{32},w_{53},w_{64}$ 的初始值相同，在进行梯度更新时，保证共享的参数同步更新即可，如可以选择以 $\begin{aligned}w-\eta\frac{1}{4}(\frac{\partial E}{\partial w_{21}}+\frac{\partial E}{\partial w_{32}}+\frac{\partial E}{\partial w_{53}}+\frac{\partial E}{\partial w_{64}})\end{aligned}$ 进行更新。

3. 池化层

池化层是一种降采样操作，可以降低特征图维度，从而减少参数和计算量，同时保留了图像的关键特征。也能减少特征对空间的依赖，提高所提取特征的鲁棒性。常用的池化操作有最大池化( $\ Pooling$ )和平均池化( $Average\ Pooling$ ) 。

3.1 最大池化

我们以最大池化为例，简单讲解下如何进行池化计算，其实理解了卷积的计算之后，池化计算也就很容易就理解了。首先我们需要指定池化的大小以及池化步长，这是一组超参数，我们不需要通过学习得到，直接指定即可。一般选择池化大小为 $2 * 2$ ，步长为 $2$ 。以输入为 $4 * 4$ 的特征图为例，从特征图左上角开始，从 $2 * 2$ 区域内选取最大值，作为下一层特征图的一个输出，然后水平向右移动 $2$ 个格子，再次求解 $2 * 2$ 区域内的最大值，依次计算，得到完整的新特征图。如下图所示

经过池化之后，得到一个 $2 * 2$ 的特征图。最大池化保留了池化区域内最显著的特征，去除了其他的杂讯。

3.2 平均池化

平均池化则是取 $2 * 2$ 区域内所有像素点的平均值，如下图所示

得到一个 $2 * 2$ 的特征图。平均池化保留了更多的信息，但得到的特征会相对模糊。

另外，需要注意的是，需要对特征图的所有通道都进行同样的池化操作，池化后的特征图通道数保持不变，宽和高可以用卷积的特征结果图计算方式进行计算。

3.3 池化层的后向传播

由于池化层没有需要学习的参数，在进行后向传播的时候直接将梯度按规则传递到前一层即可，为了方便描述，我们用下图描述池化的正向计算过程

以最大池化为例，有

$\begin{aligned} z_1 &= \max(\alpha_1,\alpha_2,\alpha_5,\alpha_6) = \alpha_2 \\ z_2 &= \max(\alpha_3,\alpha_4,\alpha_7,\alpha_8) = \alpha_7 \\ z_3 &= \max(\alpha_9,\alpha_{10},\alpha_{13},\alpha_{14}) = \alpha_{13}\\z_4 &= \max(\alpha_{11},\alpha_{12},\alpha_{15},\alpha_{16}) = \alpha_{15}\end{aligned}$

在进行误差后向传播时，有

$\begin{aligned}\frac{\partial E}{\partial \alpha_{1}} &= \frac{\partial E}{\partial z_{1}}\frac{\partial z_{1}}{\partial \alpha_{1}} = 0 \\ \frac{\partial E}{\partial \alpha_{2}} &= \frac{\partial E}{\partial z_{1}}\frac{\partial z_{1}}{\partial \alpha_{2}} = \frac{\partial E}{\partial z_{1}}*1=\frac{\partial E}{\partial z_{1}} \\\frac{\partial E}{\partial \alpha_{5}} &= \frac{\partial E}{\partial z_{1}}\frac{\partial z_{1}}{\partial \alpha_{5}} = 0 \\\frac{\partial E}{\partial \alpha_{6}} &= \frac{\partial E}{\partial z_{1}}\frac{\partial z_{1}}{\partial \alpha_{6}} = 0 \end{aligned}$

依次计算各个 $\begin{aligned}\frac{\partial E}{\partial \alpha} \end{aligned}$ ，得到对应的下图结果

我们发现，对于最大池化，在进行误差反向传播时，误差项会原封不动的传递到上一层对应池化区域内的最大值对应的像素点(神经元)，其他的神经元的误差项均为 $0$ 。

如果是平均池化，则有

$\begin{aligned} z_1 &= \frac{1}{4}(\alpha_1+\alpha_2+\alpha_5+\alpha_6) \\ z_2 &= \frac{1}{4}(\alpha_3+\alpha_4+\alpha_7+\alpha_8) \\ z_3 &= \frac{1}{4}(\alpha_9+\alpha_{10}+\alpha_{13}+\alpha_{14}) \\z_4 &= \frac{1}{4}(\alpha_{11}+\alpha_{12}+\alpha_{15}+\alpha_{16}) \end{aligned}$

在进行误差后向传播时，有

$\begin{aligned}\frac{\partial E}{\partial \alpha_{1}} &= \frac{\partial E}{\partial z_{1}}\frac{\partial z_{1}}{\partial \alpha_{1}} = \frac{\partial E}{\partial z_{1}}*\frac{1}{4} = \frac{1}{4}\frac{\partial E}{\partial z_{1}} \\ \frac{\partial E}{\partial \alpha_{2}} &= \frac{\partial E}{\partial z_{1}}\frac{\partial z_{1}}{\partial \alpha_{2}} = \frac{1}{4}\frac{\partial E}{\partial z_{1}} \\\frac{\partial E}{\partial \alpha_{5}} &= \frac{\partial E}{\partial z_{1}}\frac{\partial z_{1}}{\partial \alpha_{5}} = \frac{1}{4}\frac{\partial E}{\partial z_{1}} \\\frac{\partial E}{\partial \alpha_{6}} &= \frac{\partial E}{\partial z_{1}}\frac{\partial z_{1}}{\partial \alpha_{6}} = \frac{1}{4}\frac{\partial E}{\partial z_{1}} \end{aligned}$