BP算法的原理解释和推导

最新推荐文章于 2022-09-07 13:19:54 发布

Super__Tiger

最新推荐文章于 2022-09-07 13:19:54 发布

阅读量1.2k

点赞数 7

分类专栏： DeepLearning 文章标签： BP算法神经网络深度学习

本文链接：https://blog.csdn.net/acceptedday/article/details/119761961

版权

DeepLearning 专栏收录该内容

20 篇文章 8 订阅

订阅专栏

BP算法的原理解释和推导

已知的神经网络结构：
在这里插入图片描述

且已知的条件：

$\mathbf{a}^{\left( \mathbf{j} \right)}=\mathbf{f}\left( \mathbf{z}^{\left( \mathbf{j} \right)} \right)$
$\mathbf{z}^{\left( \mathbf{j} \right)}=\mathbf{W}^{\left( \mathbf{j} \right)}\mathbf{a}^{\left( \mathbf{j}-1 \right)}+\mathbf{b}^{\left( \mathbf{j} \right)}\text{，而}\mathbf{\theta }^{\left( \mathbf{j} \right)}=\left\{ \mathbf{W}^{\left( \mathbf{j} \right)},\mathbf{b}^{\left( \mathbf{j} \right)} \right\}$

对于上图，如果我们想得到 $\frac{\partial \mathbf{l}}{\partial \mathbf{\theta }^{\left( \mathbf{j} \right)}}$ ,可以通过 $\mathbf{z}^{\left( \mathbf{j} \right)}$ 建立l和θ^(j)之间的联系，即 $\frac{\partial \mathbf{l}}{\partial \mathbf{\theta }^{\left( \mathbf{j} \right)}}=\frac{\partial \mathbf{l}}{\partial \mathbf{z}^{\left( \mathbf{j} \right)}}*\frac{\partial \mathbf{z}^{\left( \mathbf{j} \right)}}{\partial \mathbf{\theta }^{\left( \mathbf{j} \right)}}$ ，而l和z^(j)之间的联系则可以通过z^(j+1)进行建立 $\frac{\partial \mathbf{l}}{\partial \mathbf{z}^{\left( \mathbf{j} \right)}}=\frac{\partial \mathbf{l}}{\partial \mathbf{z}^{\left( \mathbf{j}+1 \right)}}*\frac{\partial \mathbf{z}^{\left( \mathbf{j}+1 \right)}}{\partial \mathbf{z}^{\left( \mathbf{j} \right)}}=\frac{\partial \mathbf{l}}{\partial \mathbf{z}^{\left( \mathbf{j}+1 \right)}}*\frac{\partial \mathbf{z}^{\left( \mathbf{j}+1 \right)}}{\partial \mathbf{a}^{\left( \mathbf{j} \right)}}*\frac{\partial \mathbf{a}^{\left( \mathbf{j} \right)}}{\partial \mathbf{z}^{\left( \mathbf{j} \right)}}$ ，由此，我们得到 $\frac{\partial \mathbf{l}}{\partial \mathbf{\theta }^{\left( \mathbf{j} \right)}}=\frac{\partial \mathbf{l}}{\partial \mathbf{z}^{\left( \mathbf{j}+1 \right)}}*\frac{\partial \mathbf{z}^{\left( \mathbf{j}+1 \right)}}{\partial \mathbf{a}^{\left( \mathbf{j} \right)}}*\frac{\partial \mathbf{a}^{\left( \mathbf{j} \right)}}{\partial \mathbf{z}^{\left( \mathbf{j} \right)}}*\frac{\partial \mathbf{z}^{\left( \mathbf{j} \right)}}{\partial \mathbf{\theta }^{\left( \mathbf{j} \right)}}$ (链式求导法则)，然后不断的迭代求导下去。

这里我们细心观察下式：

在这里插入图片描述

其中， $\frac{\partial \mathbf{z}^{\left( \mathbf{j}+1 \right)}}{\partial \mathbf{a}^{\left( \mathbf{j} \right)}}=\mathbf{w}^{\left( \mathbf{j}+1 \right)}$ ，而 $\frac{\partial \mathbf{a}^{\left( \mathbf{j} \right)}}{\partial \mathbf{z}^{\left( \mathbf{j} \right)}}=\mathbf{f}'\left( \mathbf{z}^{\left( \mathbf{j} \right)} \right)$ 。然后，我们将这两个式子代入上式，得到了一个新的式子：

在这里插入图片描述

而 $\frac{\partial \mathbf{l}}{\partial \mathbf{W}^{\left( \mathbf{j} \right)}}$ 和 $\frac{\partial \mathbf{l}}{\partial \mathbf{b}^{\left( \mathbf{j} \right)}}$ 是什么样子的呢？

在这里插入图片描述

此时，让我们来分析一个相对复杂一些的神经网络结构的BackPropagation过程：

在这里插入图片描述

且已知条件：

$\mathbf{l}=\mathbf{l}\left( \mathbf{h} \right)$
$\mathbf{h}=\mathbf{f}\left( \mathbf{w}_{1,1}^{\left( 3 \right)}\mathbf{a}_{1}^{\left( 2 \right)}+\mathbf{w}_{2,1}^{\left( 3 \right)}\mathbf{a}_{2}^{\left( 2 \right)} \right) \\\,\, =\mathbf{f}\left( \mathbf{w}_{1,1}^{\left( 3 \right)}\mathbf{f}\left( \mathbf{z}_{1}^{\left( 2 \right)} \right) +\mathbf{w}_{2,1}^{\left( 3 \right)}\mathbf{f}\left( \mathbf{z}_{2}^{\left( 2 \right)} \right) \right) \\\,\, =\mathbf{f}\left( \mathbf{w}_{1,1}^{\left( 3 \right)}\mathbf{f}\left( \mathbf{w}_{1,1}^{\left( 2 \right)}\mathbf{f}\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) \right) +\mathbf{w}_{2,1}^{\left( 3 \right)}\mathbf{f}\left( \mathbf{w}_{2,1}^{\left( 2 \right)}\mathbf{f}\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) \right) \right)$

此时，我们令 $\mathbf{g}_1\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) =\mathbf{w}_{1,1}^{\left( 3 \right)}\mathbf{f}\left( \mathbf{w}_{1,1}^{\left( 2 \right)}\mathbf{f}\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) \right)$ 和 $\mathbf{g}_2\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) =\mathbf{w}_{2,1}^{\left( 3 \right)}\mathbf{f}\left( \mathbf{w}_{2,1}^{\left( 2 \right)}\mathbf{f}\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) \right)$ ，然后我们将上面h的表达式进行转换：

$\mathbf{h}=\mathbf{f}\left( \mathbf{g}_1\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) +\mathbf{g}_2\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) \right)$

然后，我们求解 $\frac{\partial \mathbf{h}}{\partial \mathbf{z}_{1}^{\left( 1 \right)}}$ ，来接着分析化简：

$\frac{\partial \mathbf{h}}{\partial \mathbf{z}_{1}^{\left( 1 \right)}}=\frac{\partial \mathbf{h}}{\partial \mathbf{g}_1}*\frac{\partial \mathbf{g}_1}{\partial \mathbf{z}_{1}^{\left( 1 \right)}}+\frac{\partial \mathbf{h}}{\partial \mathbf{g}_2}*\frac{\partial \mathbf{g}_2}{\partial \mathbf{z}_{1}^{\left( 1 \right)}}\\\,\, =\frac{\partial \mathbf{g}_1}{\partial \mathbf{z}_{1}^{\left( 2 \right)}}\mathbf{w}_{1,1}^{\left( 2 \right)}\mathbf{f}'\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) +\frac{\partial \mathbf{g}_2}{\partial \mathbf{z}_{2}^{\left( 2 \right)}}\mathbf{w}_{2,1}^{\left( 2 \right)}\mathbf{f}'\left( \mathbf{z}_{1}^{\left( 1 \right)} \right) \\\,\, =\left[ \frac{\partial \mathbf{g}_1}{\partial \mathbf{z}_{1}^{\left( 2 \right)}}\mathbf{w}_{1,1}^{\left( 2 \right)}+\frac{\partial \mathbf{g}_2}{\partial \mathbf{z}_{2}^{\left( 2 \right)}}\mathbf{w}_{2,1}^{\left( 2 \right)} \right] \mathbf{f}'\left( \mathbf{z}_{1}^{\left( 1 \right)} \right)$
进而得到迭代关系： $\mathbf{\delta }_{1}^{\left( 1 \right)}=\left[ \mathbf{\delta }_{1}^{\left( 2 \right)}\mathbf{w}_{1,1}^{\left( 2 \right)}+\mathbf{\delta }_{2}^{\left( 2 \right)}\mathbf{w}_{2,1}^{\left( 2 \right)} \right] \mathbf{f}'\left( \mathbf{z}_{1}^{\left( 1 \right)} \right)$

最后我们便通过上式得到 $\frac{\partial \mathbf{h}}{\partial \mathbf{w}_{1}^{\left( 1 \right)}}$ 和 $\frac{\partial \mathbf{h}}{\partial \mathbf{b}_{1}^{\left( 1 \right)}}$ ，过程如下：

$\frac{\partial \mathbf{h}}{\partial \mathbf{w}_{1}^{\left( 1 \right)}}=\frac{\partial \mathbf{h}}{\partial \mathbf{z}_{1}^{\left( 1 \right)}}\frac{\partial \mathbf{z}_{1}^{\left( 1 \right)}}{\partial \mathbf{w}_{1}^{\left( 1 \right)}}=\mathbf{\delta }_{1}^{\left( 1 \right)}\mathbf{a}^{\left( 0 \right)}=\mathbf{\delta }_{1}^{\left( 1 \right)}\mathbf{x}_1$
$\frac{\partial \mathbf{h}}{\partial \mathbf{b}_{1}^{\left( 1 \right)}}=\frac{\partial \mathbf{h}}{\partial \mathbf{z}_{1}^{\left( 1 \right)}}\frac{\partial \mathbf{z}_{1}^{\left( 1 \right)}}{\partial \mathbf{b}_{1}^{\left( 1 \right)}}=\mathbf{\delta }_{1}^{\left( 1 \right)}$

通过归纳 $\mathbf{\delta }^{\left( \mathbf{j} \right)}$ 和 $\mathbf{\delta }^{\left( \mathbf{j}+1 \right)}$ 之间的关系，我们得到了一个特别重要也是最重要的BP公式：

$\mathbf{\delta }^{\left( \mathbf{j} \right)}=\mathbf{f}'\left( \mathbf{z}_{\mathbf{i}}^{\left( \mathbf{j} \right)} \right) *\left[ \sum_{\mathbf{k}=1}^{\mathbf{N}_{\mathbf{j}+1}}{\mathbf{w}_{\mathbf{k},\mathbf{l}}^{\left( \mathbf{j}+1 \right)}\mathbf{\delta }_{\mathbf{k}}^{\left( \mathbf{j}+1 \right)}} \right]$

如图所示：

其中 $\mathbf{w}_{\mathbf{k},\mathbf{l}}^{\left( \mathbf{j}+1 \right)}$ 由记录值直接代入即可， $\mathbf{\delta }_{\mathbf{k}}^{\left( \mathbf{j}+1 \right)}$ 是由 $\mathbf{\delta }_{\mathbf{k}}^{\left( \mathbf{j}+2 \right)}$ 反向传播得到的，而 $\mathbf{f}'\left( \mathbf{z}_{\mathbf{i}}^{\left( \mathbf{j} \right)} \right)$ 是由第j层的激活函数的导数公式代入 $\mathbf{z}_{\mathbf{i}}^{\left( \mathbf{j} \right)}$ 计算得到的，以下是常见的几种激活函数以及它们的导数公式：

但是我们问什么要使用BP算法呢？

解释：

因为如果没有BP算法，那么我们在计算某一个层的梯度的时候，就需要遍历在它所有的层进行梯度的链式计算，每一个位置的神经元的参数梯度计算都是如此，计算量爆炸！
但是，当我们拥有了BP算法，我们只要从后逐层计算每个位置神经元的参数梯度 $\mathbf{\delta }^{\left( \mathbf{j+1} \right)}$ 即可，然后并保存该层所计算出的参数梯度 $\mathbf{\delta }^{\left( \mathbf{j+1} \right)}$ ，然后接着往前计算出前一层的 $\mathbf{\delta }^{\left( \mathbf{j} \right)}$ ，依次迭代计算。
BP算法的本质是动态规划，核心思想是“之前计算过的结果保存下来，下次计算接着拿出来用，并且发现它们之间的迭代关系，然后大大节省了计算开销。”