CNN反向传播推导

最新推荐文章于 2024-07-24 12:00:37 发布

陈生~

最新推荐文章于 2024-07-24 12:00:37 发布

阅读量505

点赞数

分类专栏：深度学习基础文章标签：深度学习神经网络 cnn 反向传播求导

本文链接：https://blog.csdn.net/qq_43257640/article/details/106864851

版权

深度学习基础专栏收录该内容

11 篇文章 2 订阅

订阅专栏

基础:链式法则

神经网络反向传播的求导基于链式法则。以两个复合的函数为例：
$\frac{\mathrm{d}f(g(x))}{\mathrm{d}x}=\frac{\mathrm{d}f(g(x))}{\mathrm{d}g(x)}\cdot \frac{\mathrm{d}g(x)}{\mathrm{d}x}$
神经网络的每层相当于一个简单的函数，整个神经网络就相当于这些函数的复合。可以发现，链式法可以看成是前一层传下的梯度 $\sigma_{l-1}$ 乘以当前层的梯度。例如上式就可以写成：
$\sigma_{l}=\sigma_{l-1} \cdot \frac{\mathrm{d}g(x)}{\mathrm{d}x}$
下面逐层推导反向传播公式。为简单计，只讨论单个样本的情况。

损失层

以著名的交叉熵损失函数为例，其前向推断产生的损失函数为
$l=-(y_{true}\cdot \log y+(1-y_{true})\log (1-y))$
其中真实标签 $y_{true}$ 只有两个取值：0或1。实际应用中对数函数用 $\ln$ 函数。因此求导公式为
$\frac{\partial l}{\partial y}=\left\{ \begin{aligned} & -\frac{1}{y},y_{true}=1 \\ & \frac{1}{1-y},y_{true}=0 \end{aligned} \right.$

softmax层

softmax前向推断公式：
$y_i=\frac{exp(x_i)}{\sum_k exp(x_k)}$
求导时需要分 $i = j$ 和 $i\ne j$ 两种情况讨论。
当 $i = j$ 时，
$\begin{aligned} \frac{\partial y_i}{\partial x_j}&=\frac{exp(x_i)\sum_k exp(x_k)-exp(x_i)exp(x_i)}{(\sum_k exp(x_k))^2} \\ &=\frac{exp(x_i)}{\sum_k exp(x_k)}-\frac{exp^2(x_i)}{(\sum_k exp(x_k))^2} \\ & =y_i-y_i^2 \end{aligned}$
当 $i\ne j$ 时,
$\begin{aligned} \frac{\partial y_i}{\partial x_j}&=\frac{-exp(x_i)exp(x_j)}{(\sum_k exp(x_k))^2} \\ & =-y_i\cdot y_j \end{aligned}$
综上：
$\frac{\partial y_i}{\partial x_j}=\left\{ \begin{aligned} & y_i-y_i^2,i=j \\ & -y_i\cdot y_j,i\ne j \end{aligned} \right.$
实际应用中将前向输出 $y$ 保存起来，这样反向时就可以直接用，避免重复计算。

激活函数层

以Relu 为例，其前向推断公式：
$y=\left\{ \begin{aligned} & x,x>0 \\ & 0,x\le 0 \end{aligned} \right.$
求导公式为
$\frac{\partial y}{\partial x}=\left\{ \begin{aligned} & 1,y>0 \\ & 0,y\le 0 \end{aligned} \right.$
由于反向传播需要根据y的大小判断导数，所以仍需保存 $y$ 。

全连接层

在前向过程中，设输入矩阵 $X$ 维度为 $(b\times c_1)$ ,输出矩阵 $Y$ 维度为 $(b\times c_2)$ ，权重矩阵 $W$ 维度为 $(c_1\times c_2)$ ,偏置矩阵维度为 $c_2)$ ，其中 $b$ 表示batch， $c_1$ 表示输入神经元个数， $c_2$ 表示输出神经元个数。则前向传播公式为
$Y=X\cdot W+b$
在反向传播过程中，假设已经获得前一层的梯度 $d Y$ ，维度和 $Y$ 一样为 $(b\times c_2)$ ，则根据矩阵求导公式，依次可获得：
$dX=dY\cdot W^T$
$dW=X^T\cdot dY$
$db=1^T\cdot dY$
其中 $d X$ 传播到前一层网络， $d W$ 和 $d b$ 用于更新权重。可以发现更新梯度时需要保存 $X$

池化层

最常用的池化操作包括最大池化和平均池化。平均池化可以看作是一种特殊的卷积，其权值固定且与核大小有关，而卷积将在下面介绍，故不赘述。这将介绍最大池化。
最大池化将一块区域内的最大值作为输出，其实也可以看作一种卷积，只不过卷积核的权重是由输入的统计量决定的，即最大的输入对应的权重为1，其余对应的权重为0。
在训练时需要记录最大值在输入特征图中的索引，以便在反向传播时将梯度恢复到对应位置。非最大值处梯度为0。