卷积神经网络之反向传播算法

最新推荐文章于 2022-12-04 15:58:27 发布

谓之小一

最新推荐文章于 2022-12-04 15:58:27 发布

阅读量3.7k

点赞数 4

分类专栏：深度学习文章标签：神经网络深度学习卷积神经网络反向传播算法

本文链接：https://blog.csdn.net/XiaoYi_Eric/article/details/83245421

版权

前面已经推导学习了卷积神经网络之前向传播算法，本篇文章将推导卷积神经网络之反向传播算法。在学习卷积神经网络算法之前，希望你对深度神经网络有一定程度的了解，我在之前也有写过相关的文章，包括深度神经网络之前向传播算法、深度神经网络之反向传播算法、深度神经网络之损失函数和激活函数、深度神经网络之正则化，可以先看一下再学习卷积神经网络。

1.DNN反向传播算法

学习CNN(卷积神经网络)反向传播算法之前，我们先回顾下DNN(深度神经网络)反向传播算法。DNN之中，我们是首先计算出输出层的 $\delta^L$
$\delta^L = \frac{\partial J(W,b)}{\partial z^L} = \frac{\partial J(W,b)}{a^L} \odot {\sigma}'(z^L)$
然后利用数学归纳法，用 $\delta^{l+1}$ 的值向前求出第 $l$ 层的 $\delta ^{l}$ ，表达式为
$\delta^{l}= \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^l}=(W^{l+1})^T\delta^{l+1}\odot {\sigma}'(z^l)$
有了 $\delta^l$ 表达式，便能够求出 $W, b$ 的梯度表达式
$\frac{\partial J(W,b)}{\partial W^l} = \frac{\partial J(W,b,x,y)}{\partial z^l}\frac{\partial z^l}{\partial W^l}=\delta^l(a^{l-1})^T$

$\frac{\partial J(W,b)}{\partial b^l} = \frac{\partial J(W,b,x,y)}{\partial z^l}\frac{\partial z^l}{\partial b^l}=\delta^l$

有了 $W, b$ 梯度表达式，便可利用梯度下降法来优化 $W, b$ ，最终求出所有的 $W, b$ 。了解DNN深度神经网络反向传播算法之后，下面来看下卷积神经网络算法如何求解 $W, b$ 。

2.CNN反向传播算法

对比深度神经网络反向传播算法，卷积神经网络反向传播算法需要解决以下几个问题。

池化层没有激活函数，因此令池化层的激活函数为 $\sigma(z)=z$ ，即激活后便是本身，这样池化层激活函数的导数为1。另池化层在前向传播算法之中，对输入进行了压缩，那么现在反向推倒 $\delta ^{l-1}$ ，如何求解呢。
卷积层是通过张量进行卷积，而DNN的全连接层是直接进行矩阵乘法计算，然后得到当前层的输出，那么卷积层进行反向传播时如何推导 $\delta^{l-1}$ 呢。
对于卷积层，由于和 $W$ 的运算是卷积，那么从 $\delta ^l$ 推导出当前层卷积的 $W, b$ 方式也不同，针对卷积神经网络如何求解 $W, b$ 呢。

由于卷积层可以有多个卷积核，各个卷积核之间的处理方式是完全相同的，为了简化算法公式的复杂度，下面推导时只针对卷积层中若干卷积核中的一个。

3.已知池化层 $\delta^l$ ，推导上一隐藏层 $\delta^{l-1}$

针对上述问题1，CNN前向传播算法时，池化层一般会采用Max或Average对输入进行池化，池化的区域大小已知。现在我们反过来，从缩小后的误差 $\delta^l$ ，还原前一次较大区域对应的误差。

反向传播时，首先会把 $\delta^l$ 的所有子矩阵大小还原到池化之前的大小。如果是Max方法池化，则把 $\delta^l$ 的所有子矩阵的各个池化区域的值，放在之前做前向传播算法得到最大值的位置。如果是Average方法池化，则把 $\delta^l$ 的所有子矩阵的各个池化区域的值，取平均后放在还原后的子矩阵位置，上述过程一般叫做upsample。

下面我们通过一个简单例子来表示upsample，假设我们池化后的区域大小是2*2， $\delta^l$ 的第k个子矩阵为
$\delta_k^l = \begin{bmatrix} 2&8 \\ 4&6 \end{bmatrix}$
由于池化区域为2*2，首先将 $\delta ^l _k$ 进行还原
$\begin{bmatrix} 0 &0 &0 &0 \\ 0 &2 &8 &0 \\ 0 &4 &6 &0 \\ 0 &0 &0 &0 \end{bmatrix}$
如果是Max方法，假设之前在前向传播算法记录的最大值位置分别是左上、右下、右上、左下，则转换后的矩阵为
$\begin{bmatrix} 2 &0 &0 &0 \\ 0 &0 &0 &8 \\ 0 &4 &0 &0 \\ 0 &0 &6 &0 \end{bmatrix}$
如果是Average方法，则进行平均化，转化后的矩阵为
$\begin{bmatrix} 0.5 &0.5 &2 &2 \\ 0.5 &0.5 &2 &2 \\ 1 &1 &1.5 &1.5 \\ 1 &1 &1.5 &1.5 \end{bmatrix}$
至此我们便能够得到上一层 $\frac{\partial J(W,b)}{\partial a^{l-1}_k}$ ，通过下式便能得到 $\delta ^{l-1}_k$ ，其中upsample函数完成池化误差矩阵放大于误差重新分配的逻辑
$\delta_k ^{l-1} = \frac{\partial J(W,b)}{\partial a_k^{l-1}}\frac{\partial a_k^{l-1}}{\partial z_k^{l-1}} = upsample(\delta_k ^l)\odot {\sigma}'(z_k^{l-1})$

最低0.47元/天解锁文章

谓之小一

关注

4
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络之反向传播算法

前面已经推导学习了卷积神经网络之前向传播算法，本篇文章将推导卷积神经网络之反向传播算法。在学习卷积神经网络算法之前，希望你对深度神经网络有一定程度的了解，我在之前也有写过相关的文章，包括深度神经网络之前向传播算法、深度神经网络之反向传播算法、深度神经网络之损失函数和激活函数、深度神经网络之正则化，可以先看一下再学习卷积神经网络。1.DNN反向传播算法学习CNN(卷积神经网络)反向传播算法之前，...
复制链接

扫一扫