【DL】卷积神经网络CNN

最新推荐文章于 2023-06-08 10:44:09 发布

一只干巴巴的海绵

最新推荐文章于 2023-06-08 10:44:09 发布

阅读量832

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/Hanx09/article/details/105978664

版权

深度学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

卷积

卷积（Convolution）是分析数学中一种重要的运算。在信号处理或图像处理中，经常使用一维或二维卷积。

一维卷积

一维卷积经常用在信号处理中，用于计算信号的延迟累积。假设一个信号发生器每个时刻 $t$ 产生一个信号 $x_t$ ，其信息的衰减率为 $w_k$ ，即在 $k - 1$ 个时间步长后，信息为原来的 $w_k$ 倍，则在时刻 $t$ 收到的信号 $y_t$ 为当前时刻产生的信息和以前时刻延迟信息的叠加，
$y_t=\sum_kw_kx_{t-k+1}$

称 $w_1,w_2,...,w_K$ 为滤波器（Filter）或卷积核（Convolution Kernel）。假设滤波器长度为 $K$ ，它和一个信号序列 $x_1,x_2,....$ 的卷积定义为，
$y_t=\sum_{k=1}^Kw_kx_{t-k+1}$

信号序列 $\boldsymbol{x}$ 和滤波器 $\boldsymbol{w}$ 的卷积记为 $\boldsymbol{y}=\boldsymbol{w}\ast \boldsymbol{x}$ 。一般情况下滤波器的长度远小于序列的长度。

可以设计不同的滤波器来提取信号序列的不同特征：

滤波器 $\boldsymbol{w}=[1/K,...,1/K]$ ，卷积相当于信号序列的简单移动平均（窗口大小为 $K$ ）；
滤波器 $\boldsymbol{w}=[1,-2,1]$ ，可以近似实现对信号序列的二阶微分，即 $x^"(t)\approx x(t-1)+x(t-1)-2x(t)$

下图给出了两个滤波器的一维卷积示例。可以看出，两个滤波器分别提取了输入序列的不同特征。

滤波器 $\boldsymbol{w}= [1/3, 1/3, 1/3]$ 可以检测信号序列中的低频信息；
滤波器 $\boldsymbol{w} = [1, −2, 1]$ 可以检测信号序列中的高频信息；
高频和低频指信号变化的强烈程度。

二维卷积

在图像处理中，二维卷积经常作为特征提取的有效方法．一幅图像在经过卷积操作后得到结果称为特征映射（Feature Map）。
给定一个图像 $\boldsymbol{X}\in\mathbb{R}^{M\times N}$ 和一个滤波器 $\boldsymbol{W}\in\mathbb{R}^{U\times V}$ ，一般 $U\ll M,V\ll N$ ，其卷积为
$y_{ij}=\sum_{u=1}^U\sum_{v=1}^Vw_{uv}x_{i-u+1,j-v+1}$

输入信息 $\boldsymbol{X}$ 和滤波器 $\boldsymbol{W}$ 的二维卷积记为 $\boldsymbol{Y}=\boldsymbol{W}\ast \boldsymbol{X}$ 。

下图是一个二维卷积计算实例，为了方便，假设卷积的输出 $y_{ij}$ 的下标 $(i, j)$ 是从 $(U, V)$ 开始。
在这里插入图片描述
$\begin{aligned} y_{33}&=w_{11}x_{33}+w_{12}x_{32}+w_{13}x_{31}\\ &+w_{21}x_{23}+w_{22}x_{22}+w_{23}x_{21}\\ &+w_{31}x_{13}+w_{32}x_{12}+w_{33}x_{11} \end{aligned}$

在机器学习和图像处理领域，卷积的主要功能是在一个图像（或某种特征）上滑动一个卷积核（即滤波器），通过卷积操作得到一组新的特征。在计算卷积的过程中，需要进行卷积核翻转，翻转指从两个维度（从上到下、从左到右）颠倒次序，即旋转180度。

互相关

互相关（Cross-Correlation）是一个衡量两个序列相关性的函数，通常是用滑动窗口的点积计算来实现。给定一个图像 $\boldsymbol{X}\in\mathbb{R}^{M\times N}$ 和卷积核 $\boldsymbol{W}\in\mathbb{R}^{U\times V}$ ，它们的互相关为
$y_{ij}=\sum_{u=1}^U\sum_{v=1}^Vw_{uv}x_{i+u-1,j+v-1}$

对比可知，互相关和卷积的区别仅仅在于卷积核是否进行翻转，因此互相关也可以称为不翻转卷积。
互相关运算记为 $\otimes$ ，
$\boldsymbol{Y}=\boldsymbol{W}\otimes \boldsymbol{X}=rot180(\boldsymbol{W})\ast \boldsymbol{X}$

其中， $\boldsymbol{Y}\in\mathbb{R}^{M-U+1,N-V+1}$ 为输出矩阵， $rot180(\cdot)$ 表示旋转180度。

在神经网络中使用卷积是为了进行特征抽取，卷积核是否进行翻转和其特征抽取的能力无关．特别是当卷积核是可学习的参数时，卷积和互相关在能力上是等价的。因此，很多深度学习工具中卷积操作其实都是互相关操作。

卷积的变种

卷积核的滑动步长和零填充

步长（Stride）：指卷积核在滑动时的时间间隔；
零填充（Zero Padding）：在输入向量两端进行补零。

三类卷积
假设卷积层的输入神经元个数为 $M$ ，卷积大小为 $K$ ，步长为 $S$ ，在输入两端各填补 $P$ 个0，那么该卷积层的神经元数量为 $(M - K + 2 P) / S + 1$ 。

窄卷积（Narrow Convolution）：步长 $S = 1$ ，两端不补零 $P = 0$ ，卷积后输出长度为 $M - K + 1$ ；
宽卷积（Wide Convolution）：步长 $S = 1$ ，两端补零 $P = K - 1$ ，卷积后输出长度为 $M + K - 1$ ；
等宽卷积（Equal-Width Convolution）：步长 $S = 1$ ，两端补零 $P = (K - 1) / 2$ ，卷积后输出长度为 $M$ 。

卷积的数学性质

1. 交换性

（二维）宽卷积
给定一个二维图像 $\boldsymbol{X}\in\mathbb{R}^{M\times N}$ 和一个二维卷积核 $\boldsymbol{W}\in\mathbb{R}^{U\times V}$ ，对图像 $\boldsymbol{X}$ 进行零填充，两端各补 $U - 1$ 和 $V - 1$ 个零，得到全填充（Full Padding）的图像 $\boldsymbol{\tilde{X}}\in\mathbb{R}^{(M+2U-2)\times (N+2V-2)}$ ，图像 $\boldsymbol{X}$ 和卷积核 $\boldsymbol{W}$ 的宽卷积定义为
$\boldsymbol{W}\tilde{\otimes}\boldsymbol{X}=\boldsymbol{W}\otimes \boldsymbol{\tilde{X}}$

其中， $\tilde{\otimes}$ 表示宽卷积运算。

交换性

若两个卷积信号的长度不受限制，则它们的卷积具有交换性 $\boldsymbol{x}\ast\boldsymbol{y}=\boldsymbol{y}\ast\boldsymbol{x}$ ；
若输入信息和卷积核有固定长度，则它们的宽卷积具有交换性 $rot180(\boldsymbol{W})\tilde{\otimes}\boldsymbol{X}=rot180(\boldsymbol{X})\tilde{\otimes}\boldsymbol{W}$

2. 导数

假设 $\boldsymbol{Y}=\boldsymbol{W}\otimes \boldsymbol{X}$ ，其中 $\boldsymbol{X}\in\mathbb{R}^{M\times N}$ ， $\boldsymbol{W}\in\mathbb{R}^{U\times V}$ ， $\boldsymbol{Y}\in\mathbb{R}^{(M+U+1)\times (N-V+1)}$ ，函数 $f(\boldsymbol{Y})\in\mathbb{R}$ 为一个标量函数，则

$\begin{aligned} \frac{\partial f(\boldsymbol{Y})}{\partial w_{uv}}&=\sum_{i=1}^{M-U+1}\sum_{j=1}^{N-V+1}\frac{\partial y_{ij}}{\partial w_{uv}}\frac{\partial f(\boldsymbol{Y})}{\partial y_{ij}}\\ &=\sum_{i=1}^{M-U+1}\sum_{j=1}^{N-V+1}x_{i+u-1,j+v-1}\frac{\partial f(\boldsymbol{Y})}{\partial y_{ij}}\\ &=\sum_{i=1}^{M-U+1}\sum_{j=1}^{N-V+1}\frac{\partial f(\boldsymbol{Y})}{\partial y_{ij}}x_{i+u-1,j+v-1} \end{aligned}$

可以看出，
$\frac{\partial f(\boldsymbol{Y})}{\partial \boldsymbol{W}}=\frac{\partial f(\boldsymbol{Y})}{\partial \boldsymbol{Y}}\otimes\boldsymbol{X}$

同理，
$\begin{aligned} \frac{\partial f(\boldsymbol{Y})}{\partial x_{st}}&=\sum_{i=1}^{M-U+1}\sum_{j=1}^{N-V+1}\frac{\partial y_{ij}}{\partial x_{st}}\frac{\partial f(\boldsymbol{Y})}{\partial y_{ij}}\\ &=\sum_{i=1}^{M-U+1}\sum_{j=1}^{N-V+1}w_{s-i+1,t-j+1}\frac{\partial f(\boldsymbol{Y})}{\partial y_{ij}} \end{aligned}$

其中，当 $(s - i + 1) < 1$ 或 $(s - i + 1) > U$ 或 $(t - j + 1) < 1$ 或 $(t - j + 1) > V$ 时， $w_{s-i+1,t-j+1}=0$ ，即相当于对 $\boldsymbol{W}$ 进行了 $P = (M - U, N - V)$ 的零填充。

可以看出，
$\frac{\partial f(\boldsymbol{Y})}{\partial \boldsymbol{X}}=rot180(\frac{\partial f(\boldsymbol{Y})}{\partial \boldsymbol{Y}})\tilde{\otimes}\boldsymbol{W}=rot180(\boldsymbol{W}))\tilde{\otimes}\frac{\partial f(\boldsymbol{Y})}{\partial \boldsymbol{Y}}$

卷积神经网络

卷积神经网络（Convolutional Neural Network，CNN 或ConvNet）一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络。卷积神经网络有三个结构上的特性：局部连接、权重共享以及汇聚。这些特性使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性，和前馈神经网络相比，卷积神经网络的参数更少。

目前常用的卷积网络整体结构：一个卷积块为连续 $M$ 个卷积层和 $b$ 个汇聚层（ $M$ 通常设置为2~ 5， $b$ 为0或1）；一个卷积网络中堆叠 $N$ 个连续的卷积块，然后在后面接着 $K$ 个全连接层（ $N$ 的取值区间比较大，比如1~ 100或者更大； $K$ 一般为0~ 2）。

Convolution/卷积层

卷积层的作用是提取一个局部区域的特征，不同的卷积核相当于不同的特征提取器。

图像为二维结构，为了更充分地利用图像的局部信息，通常将神经元组织为三维结构的神经层，其大小为高度 $M\times$ 宽度 $N\times$ 深度 $D$ ，由 $D$ 个 $M\times N$ 大小的特征映射构成。为了提高卷积网络的表示能力，可以在每一层使用多个不同卷积核得到不同的特征映射，以更好地表示图像的特征。
特征映射（Feature Map）为一幅图像（或其他特征映射）在经过卷积提取到的特征，每个特征映射可以作为一类抽取的图像特征。在输入层，特征映射就是图像本身：如果是灰度图像，就是有一个特征映射，输入层的深度 $D = 1$ ；如果是彩色图像，分别有RGB 三个颜色通道的特征映射，输入层的深度 $D = 3$ 。

不失一般性，假设一个卷积层的结构如下：

输入特征映射组： $\mathcal{X}\in\mathbb{R}^{M\times N\times D}$ 为三维张量（Tensor），其中每个切片（Slice）矩阵 $\mathcal{X}_d\in\mathbb{R}^{M\times N}$ 为一个输入特征映射， $1\leq d\leq D$ ；
输出特征映射组： $\mathcal{Y}\in\mathbb{R}^{M'\times N'\times P}$ 为三维张量，其中每个切片矩阵 $\mathcal{Y}_p\in\mathbb{R}^{M'\times N'}$ 为一个输出特征映射， $1\leq p\leq P$ ；
卷积核： $\mathcal{W}\in\mathbb{R}^{U\times V\times P\times D}$ 为四维张量，其中每个切片矩阵 $\mathcal{W}_{p,d}\in\mathbb{R}^{U\times V}$ 为一个二维卷积核， $1\leq p\leq P$ ， $1\leq d\leq D$ 。

在这里插入图片描述
注： $P$ 理解为卷积核的个数， $D$ 理解为卷积核的维度。如下左图 $P = 2, D = 1$ ，右图 $P = 2, D = 3$ 。

为了计算输出特征映射 $Y_p$ ，用卷积核 $W_{p,1},W_{p,2},...,W_{p,D}$ 分别对输入特征映射 $X_1,X_2,...,X_D$ 进行卷积，然后将卷积结果相加，并加上一个标量偏置 $b_p$ 得到卷积层的净输入 $Z_p$ ，这里净输入是指没有经过非线性激活函数的净活性值（Net Activation），再经过非线性激活函数后得到输出特征映射 $Y_p$ 。
$\begin{cases} Z_p=W_p\otimes X+b_p=\sum_{d=1}^DW_{p,d}\otimes X_d+b_p\\ Y_p=f(Z_p) \end{cases}$

其中 $W_p\in\mathbb{R}^{U\times V\times D}$ 为三维卷积核， $f(\cdot)$ 为非线性激活函数，一般用ReLU函数。
在这里插入图片描述
将上述计算过程重复 $P$ 次，得到 $P$ 个输出特征映射 $Y_1,Y_2,...,Y_p$ 。

卷积层参数
在输入为 $\mathcal{X}\in\mathbb{R}^{M\times N\times D}$ ，输出为 $\mathcal{Y}\in\mathbb{R}^{M'\times N'\times P}$ 的卷积层中，每一个输出特征映射都需要 $D$ 个卷积核以及一个偏置，假设每个卷积核的大小为 $U\times V$ ，那么共需要 $P\times D\times(U\times V)+P$ 个参数．

卷积层性质：

局部关联：卷积层的每一个神经元都只和下一层中的某个局部窗口内的神经元相连。
参数共享：一组固定的权重和不同窗口内的数据做内积；可以理解为一个卷积核只捕捉输入数据中的一种特定的局部特征。
相对全连接网络，具有更少的参数。

Pooling/池化/汇聚层/子采样层

汇聚层（Pooling Layer）作用是进行特征选择，降低特征数量，从而减少参数数量。

卷积层虽然可以显著减少网络中连接的数量，但特征映射组中的神经元个数并没有显著减少．如果后面接一个分类器，分类器的输入维数依然很高，很容易出现过拟合。为了解决这个问题，可以增加卷积步长，也可以在卷积层之后加上一个汇聚层，从而降低特征维数，避免过拟合。

假设汇聚层的输入特征映射组为 $\mathcal{X}\in\mathbb{R}^{M\times N\times D}$ ，对于其中每一个特征映射 $\mathcal{X}_d\in\mathbb{R}^{M\times N}$ ， $1\leq d\leq D$ ，将其划分为很多区域 $R_{d,mn},1\leq m \leq M',1\leq n\leq N'$ ，这些区域可以重叠，也可以不重叠。汇聚（Pooling）是指对每个区域进行下采样（Down Sampling）得到一个值，作为这个区域的概括。

对每一个输入特征映射 $X_d$ 的 $M'\times N'$ 个区域进行子采样，得到汇聚层的输出特征映射 $Y_d=\{y_{d,mn}\},1\leq m\leq M',1\leq n\leq N'$ 。常用的汇聚函数有两种：

最大汇聚（Maximum Pooling 或Max Pooling）：对于一个区域 $R_{d,mn}$ 选择这个区域内所有神经元的最大活性值作为这个区域的表示，即
$y_{d,mn}=\max_{i\in R_{d,mn}}x_i$
其中 $x_i$ 为相应区域内每个神经元的活性值。
平均汇聚（Mean Pooling）：一般是取区域内所有神经元活性值的平均值，即
$y_{d,mn}=\frac{1}{|R_{d,mn}|}\sum_{i\in R_{d,mn}}x_i$

典型的汇聚层是将每个特征映射划分为 $2\times2$ 大小的不重叠区域，然后使用最大汇聚的方式进行下采样。过大的采样区域会急剧减少神经元的数量，也会造成过多的信息损失。

汇聚层性质：

特征不变性：在图像处理中，池化操作就是图像的resize；
特征降维：压缩数据和参数的量，去掉冗余信息；
在一定程度上防止过拟合。

Flatten/全连接层

将经过多次卷积-池化的输出矩阵作为输入，放入一个全连接前馈神经网络

目前，卷积网络的整体结构趋向于使用更小的卷积核（比如1 × 1 和3 × 3）以及更深的结构（比如层数大于50）。此外，由于卷积的操作性越来越灵活（比如不同的步长），汇聚层的作用也变得越来越小，因此目前比较流行的卷积网络中，汇聚层的比例正在逐渐降低，趋向于全卷积网络。

CNN参数学习

在卷积神经网络中，主要有两种不同功能的神经层：卷积层和汇聚层．而参数为卷积核以及偏置，因此只需要计算卷积层中参数的梯度。

设第 $l$ 层为卷积层，第 $l - 1$ 层的特征映射为 $X^{l-1}\in\mathbb{R}^{M\times N\times D}$ ，通过卷积运算得到第 $l$ 层的特征映射净输入 $Z^l\in\mathbb{R}^{M'\times N'\times P}$ 。第 $l$ 层的第 $p(1\leq p\leq P)$ 个特征映射净输入
$Z_p^l=\sum_{d=1}^DW^l_{p,d}\otimes X_d^{l-1}+b_p^l$

其中 $W^l_{p,d}$ 和 $b_p^l$ 为卷积核及偏置。第 $l$ 层共有 $P\times D$ 个卷积核和 $P$ 个偏置。

损失函数 $L$ 关于第 $l$ 层的卷积核 $W^l_{p,d}$ 的偏导数为
$\frac{\partial L}{\partial W^l_{p,d}}=\frac{\partial L}{\partial Z_p^l}\otimes X_d^{l-1}=\delta_p^l \otimes X_d^{l-1}$

其中 $\delta_p^l=\frac{\partial L}{\partial Z_p^l}$ 为损失函数关于第 $l$ 层的第 $p$ 个特征映射净输入 $Z_p^l$ 的偏导数。

同理可得，损失函数 $L$ 关于第 $l$ 层的第 $p$ 个偏置 $b^l_p$ 的偏导数
$\frac{\partial L}{\partial b^l_{p}}=\sum_{i,j}[\delta^l_p]_{i,j}$

在卷积网络中，每层参数的梯度依赖其所在层的误差项 $\delta^l_p$ ：

$l + 1$ 层为汇聚层

汇聚层是下采样操作， $l + 1$ 层的每个神经元的误差项 $\delta$ 对应于第 $l$ 层的相应特征映射的一个区域；
$l$ 层的第𝑝 个特征映射中的每个神经元都有一条边和 $l + 1$ 层的第 $p$ 个特征映射中的一个神经元相连；
根据链式法则，第 $l$ 层的一个特征映射的误差项 $\delta_p^l$ ，只需要将 $l + 1$ 层对应特征映射的误差项 $\delta_p^{l+1}$ 进行上采样操作（和第 $l$ 层的大小一样），再和 $l$ 层特征映射的激活值偏导数逐元素相乘，就得到了 $\delta^l_p$ 。

$\delta_p^l=\frac{\partial L}{\partial Z_p^l}=\frac{\partial X^l_p}{\partial Z^l_p}\frac{\partial Z^{l+1}_p}{\partial X^l_p}\frac{\partial L}{\partial Z_p^{l+1}}=f'_l(Z_p^l)\odot up(\delta_p^{l+1})$

其中， $f'_l(\cdot)$ 为第 $l$ 层使用的激活函数，， $u p$ 为上采样函数（up sampling），与汇聚层中使用的下采样操作刚好相反：如果下采样是最大汇聚，误差项 $\delta_p^{l+1}$ 中每个值会直接传递到上一层对应区域中的最大值所对应的神经元，该区域中其他神经元的误差项都设为0；如果下采样是平均汇聚，误差项 $\delta_p^{l+1}$ 中每个值会被平均分配到上一层对应区域中的所有神经元上。

$l + 1$ 层为卷积层
$Z_p^{l+1}=\sum_{d=1}^DW^{l+1}_{p,d}\otimes X_d^{l}+b_p^{l+1}$

$\begin{aligned} \delta_d^l&=\frac{\partial L}{\partial Z_d^l}\\ &=\frac{\partial X^l_d}{\partial Z^l_d}\frac{\partial L}{\partial X_d^l}\\ &=f'_l(Z_d^l)\odot\sum_{p=1}^P(rot180(W_{pd}^{l+1})\tilde{\otimes}\frac{\partial L}{\partial Z_d^{l+1}})\\ &=f'_l(Z_d^l)\odot\sum_{p=1}^P(rot180(W_{pd}^{l+1})\tilde{\otimes}\delta_p^{l+1}) \end{aligned}$