卷积神经网络卷积层正向传播、反向传播和参数更新详解

FishPotatoChen

已于 2022-06-06 16:51:12 修改

阅读量3.2k

点赞数 1

分类专栏：深度学习文章标签： cnn 深度学习机器学习

于 2022-03-12 10:56:03 首次发布

本文链接：https://blog.csdn.net/FishPotatoChen/article/details/123389289

版权

深度学习专栏收录该内容

3 篇文章

订阅专栏

正向传播

这里用输入为 $3 * 3$ 矩阵 $A^{l-1}$ ，步长为 $1$ ，卷积核为 $2 * 2$ 矩阵 $W^l$ ，输出为 $2 * 2$ 矩阵 $Z^l$ 的卷积层为例。矩阵 $A^{l-1}$ 可以是整个神经网络的输入，也可以是池化层的输出。这个模型简化为输入层 $A^{l-1}$ 经过卷积计算得到特征图 $Z^l$ ， $Z^l$ 经过激活函数 $\sigma(x)$ 得到输出层 $A^l$ (实际上在现实工程中很多时候不用激活函数)。对于第 $l$ 层，有下列表达式：
$\left[ \begin{array}{r} a_1&a_2&a_3\\ a_4&a_5&a_6\\ a_7&a_8&a_9\\ \end{array} \right]^{l-1} \Rightarrow \left[ \begin{array}{r} \omega_1&\omega_2\\ \omega_3&\omega_4\\ \end{array} \right]^l \Rightarrow \left[ \begin{array}{r} z_1&z_2\\ z_3&z_4\\ \end{array} \right]^l \Rightarrow \left[ \begin{array}{r} a_1&a_2\\ a_3&a_4\\ \end{array} \right]^l\tag{1}$

$\left\{ \begin{array}{r} a_1^l=\sum( \left[ \begin{array}{r} a_1&a_2\\ a_4&a_5\\ \end{array} \right]^{l-1} \cdot \left[ \begin{array}{r} \omega_1&\omega_2\\ \omega_3&\omega_4\\ \end{array} \right]^l)=\sigma(\omega_1a_1^{l-1}+\omega_2a_2^{l-1}+\omega_3a_3^{l-1}+\omega_4a_4^{l-1}+b^l)=\sigma(z_1^l) \\ a_2^l=\sum( \left[ \begin{array}{r} a_2&a_3\\ a_5&a_6\\ \end{array} \right]^{l-1} \cdot \left[ \begin{array}{r} \omega_1&\omega_2\\ \omega_3&\omega_4\\ \end{array} \right]^l)=\sigma(\omega_1a_2^{l-1}+\omega_2a_3^{l-1}+\omega_3a_5^{l-1}+\omega_4a_6^{l-1}+b^l)=\sigma(z_2^l) \\ a_3^l=\sum( \left[ \begin{array}{r} a_4&a_5\\ a_7&a_8\\ \end{array} \right]^{l-1} \cdot \left[ \begin{array}{r} \omega_1&\omega_2\\ \omega_3&\omega_4\\ \end{array} \right]^l)=\sigma(\omega_1a_4^{l-1}+\omega_2a_5^{l-1}+\omega_3a_7^{l-1}+\omega_4a_8^{l-1}+b^l)=\sigma(z_3^l) \\ a_4^l=\sum( \left[ \begin{array}{r} a_5&a_6\\ a_8&a_9\\ \end{array} \right]^{l-1} \cdot \left[ \begin{array}{r} \omega_1&\omega_2\\ \omega_3&\omega_4\\ \end{array} \right]^l)=\sigma(\omega_1a_5^{l-1}+\omega_2a_6^{l-1}+\omega_3a_8^{l-1}+\omega_4a_9^{l-1}+b^l)=\sigma(z_4^l) \end{array} \right.\tag{2}$
简单来说，卷积过程就是对应的位置代入函数之后相加求和，不同的函数有不同的参数 $w$ 和 $b$ ，我们需要训练的是卷积核参数，所以这个公式还可以写做 $Z^l=W^l*A^{l-1}+b^l$ ， $\sigma(x)$ 是激活函数，我们假设是ReLU函数，求导比较好求，所以我们接下来的计算忽略了对激活层的求导。
$\sigma(x)=\left\{ \begin{array}{r} 0&,&x<0\\ x&,&x>=0 \end{array} \right.\tag{3}$

反向传播

假设矩阵 $Z^L$ 是最后一层(第 $L$ 层)，那么 $Z^L$ 会被展开为 $1 * 4$ 的矩阵之后通过分类器进行分类，这个分类器一般用全连接层替代(DNN)，DNN的反向传播很简单，不是本文的重点。通过全连接层的误差函数 $J (W, b, x, y)$ 来计算标签与输出结果的误差( $x$ 是输出， $y$ 是标签)，根据误差我们可以计算出相对应的梯度，之后通过全连接层的反向传播将梯度 $\Delta^L$ 传到 $Z^L$ 矩阵这一。
$\Delta^L= \left[ \begin{array}{r} \delta_1&\delta_2\\ \delta_3&\delta_4 \end{array} \right] =\frac{\partial J(W^L,b^L,x,y)}{\partial Z^L}\tag{4}$
对于倒数第二层(第 $l - 1$ 层)，对应于前文的正向传播公式 $Z^l=Z^L,l=L$ ，接下来要做的是将梯度传给输入层(也就是计算出输入层的梯度)，计算输入层 $Z^{l-1}$ 的梯度。
$\Delta^{l-1}=\frac{\partial J(W^l,b^l,x,y)}{\partial A^{l-1}}=(\frac{\partial Z^L}{\partial A^{l-1}})^T\frac{\partial J(W^l,b^l,x,y)}{\partial Z^L}=(\frac{\partial Z^l}{\partial A^{l-1}})^T\frac{\partial J(W^l,b^l,x,y)}{\partial Z^l}\tag{5}$
将 $(4)$ 代入 $(5)$ 中
$\Delta^{l-1}=(\frac{\partial Z^l}{\partial A^{l-1}})^T\Delta^L\tag{6}$
因为卷积层的输入和输出不是最终计算结果，而是下一层传递的误差，所以卷积层误差函数是 $J (W, b)$ ，将这个公式扩展到每一个卷积层，可得
$\Delta^{l-1}=(\frac{\partial Z^l}{\partial A^{l-1}})^T\frac{\partial J(W^l,b^l)}{\partial Z^l}=(\frac{\partial Z^l}{\partial A^{l-1}})^T\Delta^l \tag{7}$
这样就得到了反向传播的公式，这个公式唯一不确定的是 $\frac{\partial Z^l}{\partial A^{l-1}}$ 。

我们接下来的重点放在如何计算 $\frac{\partial Z^l}{\partial A^{l-1}}$ ，从正向传播中我们已知
$Z^l=W^l*A^{l-1}+b^l\tag{8}$
$\left\{ \begin{array}{r} z_1^l=\omega_1a_1^{l-1}+\omega_2a_2^{l-1}+\omega_3a_3^{l-1}+\omega_4a_4^{l-1}+b^l\\ z_2^l=\omega_1a_2^{l-1}+\omega_2a_3^{l-1}+\omega_3a_5^{l-1}+\omega_4a_6^{l-1}+b^l\\ z_3^l=\omega_1a_4^{l-1}+\omega_2a_5^{l-1}+\omega_3a_7^{l-1}+\omega_4a_8^{l-1}+b^l\\ z_4^l=\omega_1a_5^{l-1}+\omega_2a_6^{l-1}+\omega_3a_8^{l-1}+\omega_4a_9^{l-1}+b^l \end{array} \right.\tag{9}$
设第 $l - 1$ 层的梯度为
$\Delta^{l-1}= \left[ \begin{array}{r} \delta_1&\delta_2&\delta_3\\ \delta_4&\delta_5&\delta_6\\ \delta_7&\delta_8&\delta_9\\ \end{array} \right]^{l-1}\tag{10}$
对于 $(9)$ ， $z^l$ 对 $a^{l-1}$ 逐一求偏导，那么可得到16个公式
$\left\{ \begin{array}{r} \frac{\partial z^l_1}{\partial a^{l-1}_1}&=&\omega_1\\ \frac{\partial z^l_1}{\partial a^{l-1}_2}&=&\omega_2\\ ... \end{array} \right.\tag{11}$
将 $(11)$ 代入 $(7)$ 和 $(10)$ 中，得到9个公式
$\left\{ \begin{array}{r} \delta_1^{l-1}&=&\frac{\partial z^l_1}{\partial a^{l-1}_1}\delta_1^l&=&\omega_1\delta_1^l\\ \delta_2^{l-1}&=&\frac{\partial z^l_1}{\partial a^{l-1}_2}\delta_1^l+\frac{\partial z^l_2}{\partial a^{l-1}_2}\delta_2^l&=&\omega_2\delta_1^l+\omega_1\delta_2^l\\ ... \end{array} \right.\tag{12}$
观察公式，其实就是同一层的下标相对应，比如求 $l - 1$ 层的 $\delta_2$ ，那么分母也是 $l - 1$ 层，下标就都是 $2$ ，分母是 $l$ 层的 $z$ ，那么相乘的 $l$ 层 $\delta$ 下标也和 $z$ 相同。

列出所有公式后，可以发现一个规律(读者可以自己尝试列出剩余的公式)，其中 $r o t 90$ 是将矩阵逆时针旋转90度。
$\Delta^{l-1}= \left[ \begin{array}{r} 0&0&0&0\\ 0&\delta_1&\delta_2&0\\ 0&\delta_3&\delta_4&0\\ 0&0&0&0\\ \end{array} \right]^l* rot90( \left[ \begin{array}{r} \omega_1&\omega_2\\ \omega_3&\omega_4\\ \end{array} \right]^l) =\left[ \begin{array}{r} 0&0&0&0\\ 0&\delta_1&\delta_2&0\\ 0&\delta_3&\delta_4&0\\ 0&0&0&0\\ \end{array} \right]^l*\left[ \begin{array}{r} \omega_4&\omega_3\\ \omega_2&\omega_1\\ \end{array} \right]^l\tag{13}$
反向传播的误差传递结束。

参数更新

更新 $W^l$

根据反向传播可知
$Z^l=W^lA^{l-1}+b^l\tag{14}$
上式对两边求 $W^l$ 的偏导可得
$\frac{\partial Z^l}{\partial W^l}=A^{l-1}\tag{15}$
用误差对 $W^l$ 求偏导来计算 $W^l$ 的梯度
$\frac{\partial J(W^l,b^l)}{\partial W^l}=\frac{\partial J(W^l,b^l)}{\partial Z^l}\frac{\partial Z^l}{\partial W^l}=\Delta^{l}A^{l-1}\tag{16}$
$W^l$ 的更新就为学习率 $L R$ 与梯度相乘
$W_{new}^l=W^l_{old}-\Delta^{l}A^{l-1}LR\tag{17}$

更新 $b^l$

而对于 $b^l$ ，则稍微有些特殊，因为 $\Delta^l$ 是高维张量(矩阵)，而 $b^l$ 只是一个向量(一个数字)，不能像DNN那样直接和 $\Delta^l$ 相等。通常的做法是将 $\Delta^l$ 的各个子矩阵的项分别求和，得到一个误差向量，即为 $b$ 的梯度：
$\frac{\partial J(W^l,b^l)}{\partial b^l}=\sum\Delta^{l}\tag{18}$
$b_{new}^l=b_{old}^l-LR\sum\Delta^{l}\tag{19}$