CNN反向传播和普通神经网络的联系和比较

最新推荐文章于 2023-09-14 09:25:52 发布

lanmengyiyu

最新推荐文章于 2023-09-14 09:25:52 发布

阅读量880

点赞数

分类专栏：深度学习相关（cs231n）文章标签：反向传播 CNN BP神经网络梯度 pooling

本文链接：https://blog.csdn.net/lanmengyiyu/article/details/78907421

版权

深度学习相关（cs231n）专栏收录该内容

49 篇文章 6 订阅

订阅专栏

BP神经网络反向传播

反向传播是BP神经网络的特点，在之前的博客中已经粗略介绍了BP神经元以及反向传播的特点，对反向传播用较为直观图示解释。

本博客将重点介绍其反向传播的传播过程。
首先明确概念，反向传播就是得到整个网络的输出对每个门单元的梯度的过程。

举例说明， $f(x_1,x_2,x_3,x_4) = (max(x_1,x_2)+x_3)*x_4$

那么， $\frac{df}{dx_1}$ , $\frac{df}{dx_2}$ , $\frac{df}{dx_3}$ , $\frac{df}{dx_4}$ 如何计算，含义是什么？

1.如果 $x_1>x_2$ , 那么 $\frac{df}{dx_1}=x_4$ ，反之为0，也就是说如果 $x_1>x_2$ ，那么 $x_1$ 对输出有影响，反之没影响
2.如果 $x_2>x_1$ , 那么 $\frac{df}{dx_2}=x_4$ ，反之为0，含义与 $x_1$ 相同
3. $\frac{df}{dx_3}=x_4$ ，这说明 $x_3$ 的变化对整个输出的影响与 $x_4$ 成正比
4. $\frac{df}{dx_4}=max(x_1,x_2)+x_3$ ，这说明 $x_4$ 的变化对整个输出的影响与 $max(x_1,x_2)+x_3$ 成正比

其次，总结加法，乘法，最大值操作对梯度的作用。
1 加法门单元把输出的梯度相等地分发给它所有的输入
2 取最大值门单元对梯度做路由
3 乘法门单元是相互交换输入值

根据以上方法计算梯度，我们就可以知道，应该改变哪几个变量，才能使整个网络的loss function值最小，这也就完成了反向传播的过程

上述计算的梯度，我们可以借助雅可比矩阵（jacobi matrix）存储，雅可比矩阵的形式如下：

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 1 ⋮ \partial y n \partial x 1 \partial y 1 \partial x 2 \partial y 2 \partial x 2 ⋮ \partial y n \partial x 2 \dots \dots ⋱ \dots \partial y 1 \partial x n \partial y 2 \partial x n ⋮ \partial y n \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\left[ \begin{matrix} \frac{\partial y_1 }{\partial x_1} & \frac{\partial y_1 }{\partial x_2} & \cdots & \frac{\partial y_1 }{\partial x_n} \\ \frac{\partial y_2 }{\partial x_1} & \frac{\partial y_2 }{\partial x_2} & \cdots & \frac{\partial y_2 }{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_n }{\partial x_1} & \frac{\partial y_n }{\partial x_2} & \cdots & \frac{\partial y_n }{\partial x_n} \\ \end{matrix} \right]$
举个例子，如果输入

x x $x$ 为4096维向量，

f = m a x (x, 0)

$f=max(x,0)$
1.那么雅可比矩阵的尺寸？

4096∗4096 4096 ∗ 4096 $4096*4096$

2.这个雅可比矩阵是怎样的？
只有对角线上有值，其余为0，并且如果 $x_i$ 小于0，那么雅可比矩阵第i行i列的值也为0，如果 $x_i$ 大于0，那么雅可比矩阵第i行i列的值为1

CNN反向传播

有了上面的讨论之后，CNN的反向传播就容易理解了很多，这里我们主要讨论卷积层和pooling层的反向传播。

卷积层

下面的图片引自CNN的反向传播

这里写图片描述

事实上，卷积层跟普通的全连接层的不同之处就在于参数的共享，也就是说，并不是每一个输入像素所对应的权重都不同，这主要是为了减少在图像领域参数过多导致的过拟合现象。而参数共享之所以可以得到很好的效果，与图像的局部相关性有关，某一个位置的像素可能只与周围一定范围内的像素相关，与距离很远的像素关系不大。

因此基于上述分析以及对于bp链式法则的了解，我们可以定义后一层的误差为 $loss_l$ ，其中 $l$ 表示层数。从而求前一层的误差 $loss_{l-1}$ ，以及权重的导数 $\frac{df}{dw_l}$ ，以及偏置的导数 $\frac{df}{db_l}$ 。

首先我们来计算误差 $loss_{l-1}$ ：

l o s s l - 1 = l o s s l . * d z l d a l - 1 . * σ' (z l - 1)

$loss_{l-1} = loss_l.*\frac{dz_l}{da_{l-1}}.*\sigma'(z_{l-1})$
其中，

zl z l $z_l$ 表示第

l l $l$ 层的输入，

a_{l - 1}

$a_{l-1}$ 表示第

l−1 l − 1 $l-1$ 层输出，那么这个问题就转换为，计算

dzldal−1 d z l d a l − 1 $\frac{dz_l}{da_{l-1}}$

以上图为例，我们计算左上角位置 $(0,0)$ 的导数，因为这个像素只与粉色权重相乘，所以它的导数就是粉色权重。位置 $(0,1)$ 的导数，在卷积核的滑动过程中会分别与绿色权重和粉色权重相连，因此，它的导数包括了这两部分。如果用公式来表示上述过程：

l o s s l - 1 = l o s s l . * r o t 180 (W l) . * σ' (z l - 1)

$loss_{l-1} = loss_l.*rot180(W_l).*\sigma'(z_{l-1})$
权重的导数

dfdwl d f d w l $\frac{df}{dw_l}$ ，以及偏置的导数

dfdbl d f d b l $\frac{df}{db_l}$ 就很容易计算了，分别为

al−1∗lossl a l − 1 ∗ l o s s l $a_{l-1}*loss_l$ 以及

lossl l o s s l $loss_l$

pooling层

pooling层理解起来就更为简单，将之前卷积层的计算公式照搬下来， $\frac{dz_l}{da_{l-1}}$ 理解为对 $loss_l$ 上采样之后求导。

l o s s l - 1 = l o s s l . * d z l d a l - 1 . * σ' (z l - 1)

$loss_{l-1} = loss_l.*\frac{dz_l}{da_{l-1}}.*\sigma'(z_{l-1})$

那么这个上采样过程就分为两种，一种是average，一种是max。在average的计算中，将 $loss_l$ 平分给每个位置，而max时，只把 $loss_l$ 放在最大位置即可，其他与卷积的计算相同

lanmengyiyu

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
CNN反向传播和普通神经网络的联系和比较

BP神经网络反向传播反向传播是BP神经网络的特点，在之前的博客中已经粗略介绍了BP神经元以及反向传播的特点，对反向传播用较为直观图示解释。本博客将重点介绍其反向传播的传播过程。首先明确概念，反向传播就是得到整个网络的输出对每个门单元的梯度的过程。举例说明，f(x1,x2,x3,x4)=(max(x1,x2)+x3)∗x4f(x1,x2,x3,x4)=(max(x1,x2)+x3)∗...
复制链接

扫一扫

专栏目录