反向传播推导

最新推荐文章于 2022-07-13 15:44:53 发布

littlef0516

最新推荐文章于 2022-07-13 15:44:53 发布

阅读量680

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/nanyou519/article/details/104399490

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

反向传播是深度学习的基础知识，但是一开始直接看各种公式很容易让人一头雾水。本篇博客从一个简单的例子开始，一步步演示直至推导出反向传播的4大基本公式。希望能够帮助大家理解反向传播的知识。

链式法则

链式法则是反向传播的基础知识，对于链式法则大家理解下面两种case即可。

case1 :

y = g(x) z=h(y)

$\Delta x$ -> $\Delta y$ -> $\Delta z$ $\frac{dz}{dx} = \frac{dz}{dy} \frac{dy}{dx}$

case2:

x=g(s) y=h(s) z=k(x,y)

$\frac{dz}{ds} = \frac{\partial z}{\partial x}\frac{dx}{ds}+\frac{\partial z}{\partial y}\frac{dy}{ds}$

有了上面的两个链式法则的公式，我们就可以进行反向传播的推导了。

首先我们从一个最简单的神经网络开始，然后推广到更通用的神经网络。下面这个神经网络只包含一个神经元，采用sigmod激活函数，损失函数采用最小二乘法。整个神经网络如下所示:

整个网络的前向传播分为3步:

1. $z=x_{1}w_{1} + x_{2}w_{2} + b$

2. $a = \sigma (z)$

3. $C = \frac{1}{2}(a-y) ^{2}$

前向传播产生误差，反向传播根据误差更新权重。我们的权重 $w_{1}$ $w_{2}$ 就可以根据误差C，执行梯度下降算法得以不断更新。

$w_{1} = w_{1} - \alpha \frac{\partial C}{\partial w_{1}}$

$w_{2} = w_{2} - \alpha \frac{\partial C}{\partial w_{2}}$

$\alpha$ 为学习率。

我们以 $w_{1}$ 为例，采用链式法则进行求解

$\frac{\partial C}{\partial w_{1}} = \frac{\partial C}{\partial a} \frac{\partial a}{\partial z} \frac{\partial z}{\partial w_{1}}$

拆成的3部分都非常容易求解

$\frac{\partial C}{\partial a} = a - y$

$\frac{\partial a}{\partial z} = \sigma ^{'}(z)$

$\frac{\partial z}{\partial w_{1}} = x_{1}$

同理我们可以求出 $\frac{\partial C}{\partial w_{2}}$ ，然后按照我们上面列出的梯度更新的公式进行更新就可以找到局部最优解。

我们现在将神经网络进行进一步的扩充，扩充后的神经网络如下图所示：

我们还是和上面求解一个神经元的情况一样，将所有向前传播的式子列举出来，这里为了方便，我们忽略了偏置b。

$z_{1}^{1}=x_{1}w_{1} + x_{2}w_{3}$ $z_{2}^{1}=x_{1}w_{2} + x_{2}w_{4}$

$a_{1}^{1}=\sigma (z_{1}^{1})$ $a_{2}^{1}=\sigma (z_{2}^{1})$

$z_{1}^{2}=a_{1}^{1}w_{5} + a_{2}^{1}w_{7}$ $z_{2}^{2}=a_{1}^{1}w_{6} + a_{2}^{1}w_{8}$

$a_{1}^{2}=\sigma (z_{1}^{2})$ $a_{2}^{2}=\sigma (z_{2}^{2})$

$c_{1}=\frac{1}{2}(a_{1}^{2} - y_{1})^{2}$ $c_{2}=\frac{1}{2}(a_{2}^{2} - y_{2})^{2}$

总误差为 $C=c_{1} + c_{2}$ , 我们是根据这个总误差来更新我们的权重的。对于权重 $w_{5} w_{6} w_{7} w_{8}$ 的求导和我们之前单一神经元的例子是一样的。为了后面推导，这里我们还是把它列出来，以 $w_{5}$ 为例:

$\frac{\partial C}{\partial w_{5}} = \frac{\partial C}{\partial a_{1}^{2}} \frac{\partial a_{1}^{2}}{\partial z_{1}^{2}} \frac{\partial z_{1}^{2}}{\partial w_{5}}$

然后分别求这3部分，

$\frac{\partial C}{\partial a_{1}^{2}} = a_{1}^{2} - y$

$\frac{\partial a_{1}^{2}}{\partial z_{1}^{2}} = \sigma ^{'}(z_{1}^{2})$

$\frac{\partial z_{1}^{2}}{\partial w_{5}} = a_{1}^{1}$

所以最终

$\frac{\partial C}{\partial w_{5}} = (a_{1}^{2} - y)(\sigma ^{'}(z_{1}^{2}))a_{1}^{1}$

同理我们可以求出 $\frac{\partial C}{\partial w_{5}}$ $\frac{\partial C}{\partial w_{6}}$ $\frac{\partial C}{\partial w_{7}}$ $\frac{\partial C}{\partial w_{8}}$

然后我们继续推导 $w_{1}$

$w_{1}$ 的更新有两条路径，它符合我们一开始介绍的链式法则的case2的情况，所以我们要计算两条路径对它的影响。

$\frac{\partial C}{\partial w_{1}} = \frac{\partial C}{\partial a_{1}^{1}} \frac{\partial a_{1}^{1}}{\partial z_{1}^{1}} \frac{\partial z_{1}^{1}}{\partial w_{1}}$

$= (\frac{\partial C}{\partial a_{1}^{2}} \frac{\partial a_{1}^{2}}{\partial z_{1}^{2}} \frac{\partial z_{1}^{2}}{\partial a_{1}^{1}} + \frac{\partial C}{\partial a_{2}^{2}} \frac{\partial a_{2}^{2}}{\partial z_{2}^{2}} \frac{\partial z_{2}^{2}}{\partial a_{1}^{1}})\frac{\partial a_{1}^{1}}{\partial z_{1}^{1}} \frac{\partial z_{1}^{1}}{\partial w_{1}}$

我们来分别计算括号里面的这两条路径。

$\frac{\partial C}{\partial a_{1}^{2}} = a_{1}^{2} - y$ $\frac{\partial C}{\partial a_{2}^{2}} = a_{2}^{2} - y$

$\frac{\partial a_{1}^{2}}{\partial z_{1}^{2}} = \sigma ^{'}(z_{1}^{2})$ $\frac{\partial a_{2}^{2}}{\partial z_{2}^{2}} = \sigma ^{'}(z_{2}^{2})$

$\frac{\partial z_{1}^{2}}{\partial a_{1}^{1}} = w_{5}$ $\frac{\partial z_{2}^{2}}{\partial a_{1}^{1}} = w_{6}$

然后在计算 $\frac{\partial a_{1}^{1}}{\partial z_{1}^{1}} \frac{\partial z_{1}^{1}}{\partial w_{1}}$

$\frac{\partial a_{1}^{1}}{\partial z_{1}^{1}} = \sigma ^{'}(z_{1}^{1})$ $\frac{\partial z_{1}^{1}}{\partial w_{1}} = x_{1}$

从而得出最终结果

$\frac{\partial C}{\partial w_{1}} = ((a_{1}^{2} - y)\sigma ^{'}(z_{1}^{2})w_{5} + (a_{2}^{2} - y)\sigma ^{'}(z_{2}^{2})w_{6})\sigma ^{'}(z_{1}^{1})x_{1}$

同理可以更新 $w_{2}w_{3}w_{4}$ 。

但其实我们还可以做的更好。

$\frac{\partial C}{\partial w_{5}} = {\color{Red} {\color{Red} }\frac{\partial C}{\partial a_{1}^{2}} \frac{\partial a_{1}^{2}}{\partial z_{1}^{2}}} \frac{\partial z_{1}^{2}}{\partial w_{5}}$ $\frac{\partial C}{\partial w_{6}} = {\color{Red} {\color{Red} }\frac{\partial C}{\partial a_{2}^{2}} \frac{\partial a_{2}^{2}}{\partial z_{2}^{2}}} \frac{\partial z_{2}^{2}}{\partial w_{6}}$

$\frac{\partial C}{\partial w_{1}} = ({\color{Red} \frac{\partial C}{\partial a_{1}^{2}} \frac{\partial a_{1}^{2}}{\partial z_{1}^{2}} }\frac{\partial z_{1}^{2}}{\partial a_{1}^{1}} + {\color{Red} \frac{\partial C}{\partial a_{2}^{2}} \frac{\partial a_{2}^{2}}{\partial z_{2}^{2}}} \frac{\partial z_{2}^{2}}{\partial a_{1}^{1}})\frac{\partial a_{1}^{1}}{\partial z_{1}^{1}} \frac{\partial z_{1}^{1}}{\partial w_{1}}$

我们发现在更新 $w_{1}$ 的时候，红色我们标记出来的部分在更新 $w_{5} w_{6}$ 的时候已经计算过了，我们就不需要再重新计算了。这个地方有点类似动态规划的思想。我们再这里引入一个新的变量用来表示我们标红的部分，这个变量就是 $\delta$ ，它表示第l层第j个神经元的误差，定义如下:

$\delta _{j}^{l} = \frac{\partial C}{\partial z_{j}^{l}}$

当然它也可以写成

$\delta _{j}^{l} = \frac{\partial C}{\partial a_{j}^{l}}\sigma ^{'}(z_{j}^{l})$

我们继续往下推导，将 $\delta$ 替换掉上面标红的部分。

$\frac{\partial C}{\partial w_{1}} =(\delta _{1}^{2}\frac{\partial z_{1}^{2}}{\partial a_{1}^{1}} + \delta _{2}^{2}\frac{\partial z_{2}^{2}}{\partial a_{1}^{1}})\frac{\partial a_{1}^{1}}{\partial z_{1}^{1}} \frac{\partial z_{1}^{1}}{\partial w_{1}}$

然后我们先不考虑更新到 $w_{1}^{1}$ ,我们先只更新到 $z_{1}^{1}$ ,所以上式我们改成

$\frac{\partial C}{\partial z_{1}^{1}} =(\delta _{1}^{2}\frac{\partial z_{1}^{2}}{\partial a_{1}^{1}} + \delta _{2}^{2}\frac{\partial z_{2}^{2}}{\partial a_{1}^{1}})\frac{\partial a_{1}^{1}}{\partial z_{1}^{1}}$

我们其中每一项的导数都已经求出来过了，把他们的求导结果带入。

$\frac{\partial C}{\partial z_{1}^{1}} =(\delta _{1}^{2}w_{5} + \delta _{2}^{2}w_{6})\sigma ^{'}(z_{1}^{1})$

然后我们重新定义权重的表示方法,我们用 $w_{jk}^{l}$ 来表示我们的权重，它表示第 l-1 层的第k个神经单元连接到第层的第j个神经单元的权重，所以 $w_{5} w_{6}$ 按照这种定义就表示为 $w_{11}^{2} w_{21}^{2}$ ，我们用矩阵形式来表示上面的式子。

$\frac{\partial C}{\partial z_{1}^{1}} =\delta _{1}^{1}=(|w_{11}^{2} ,w_{21}^{2}|^{T}|\delta _{1}^{2},\delta _{2}^{2}|)\sigma ^{'}(z_{1}^{1})$

所以我们就可以根据下一层的错误量 $\delta _{l+1}$ 推算出上一层的错误量 $\delta _{l}$ ，公式如下:

${\color{Red} \delta _{l} = ((w^{l+1})^{T}\delta ^{l+1})\odot\sigma ^{'}(z_{l})}$ (公式1)

这边没有下标代表的是一层总的错误量。

我们已经根据 $\frac{\partial C}{\partial z_{1}^{1}}$ 推导出了错误量的公式，接着继续推导 $\frac{\partial C}{\partial w_{1}}$

$\frac{\partial C}{\partial w_{1}} = \frac{\partial C}{\partial a_{1}^{1}} \frac{\partial a_{1}^{1}}{\partial z_{1}^{1}} \frac{\partial z_{1}^{1}}{\partial w_{1}}=\delta _{1}^{1}\frac{\partial z_{1}^{1}}{\partial w_{1}}=\delta _{1}^{1}x_{1}$