BP算法简述

最新推荐文章于 2022-08-22 12:38:44 发布

长剑轻吟

最新推荐文章于 2022-08-22 12:38:44 发布

阅读量1.6k

点赞数 1

文章标签：神经网络

本文链接：https://blog.csdn.net/qq_40520751/article/details/114335221

版权

BP算法简述

一、正向传播

这是一个简单的网络模型，正向传播就是将一个样本数据 $\mathbf{X}$ ( $\mathbf{X}$ =[ $x_{1},x_{2},....,x_{n}$ ])输入，从而获取输出的过程。其中具体过程如下：
简单的计算过程

通过这个过程就是不断的进行线性组合以及激活函数，来获得本层输出，即下层输入。不断重复此过程就可达网络的最后一层。

对每层来说，有两个运算过程：

等式一： $\mathbf{a_{l}=W_{l}o_{l-1}}$
等式一： $\mathbf{o_{l}=f(a_{l})}$

由此，我们可以依次求出 $\mathbf{o_{0}，a_{1}，o_{1}，a_{2}，o_{2},.......,o_{L}}$ ,最后的 $o_{L}$ 就是最后的输出值。

需要注意的是这里的参数都是代表的向量。

这里的 $\mathbf{f()}$ 也代表向量函数，它的意思是对输入的每一个分量都应用那个节点的激活函数，它输出的也是一个向量。但在实际应用中，一般这些分量都是选择同一个函数。

二、BP算法

给一个输入，通过一次正向传播，我们就能获得一次输出，这是在训练好网络的前提下进行的，而训练网络才是最难的部分。下面就是经典训练网络的算法——BP算法。

BP算法是一个更新网路权重的算法，我们知道每一层都有一个权重 $W_{l}$ ,BP算法中更新权重的依据如下：

$\mathbf{W_{l}=W_{l}}-\eta\frac{\partial C}{\mathbf{\partial W_{l}}}$

其中 $C$ 代表的是损失函数， $\eta$ 使我们设定的学习效率，对于回归问题，损失函数通常定义如下：

$C=\frac{1}{2}(o_{L}-y)^2$

此等式中L代表网络层数，简单来说就是最后一层（用当前的初始权重计算的最后一层）与实际标签y的差值，对于有多个输出的神经网络，则需要修改成向量形式：

$\mathbf{C=\frac{1}{2}||o_{L}-y||^2}$

现在关键在于如何求出这个偏导 $\frac{\partial C}{\partial W_{l}}$ ,这时就要通过上面所提到的等式一和等式二了：

等式一： $\mathbf{a_{l}=W_{l}o_{l-1}}$
等式二： $\mathbf{o_{l}=f(a_{l})}$

上文我们提到由此等式我们可以得到 $\mathbf{o_{0}，a_{1}，o_{1}，a_{2}，o_{2},.......,o_{L}}$ ,在此说明，这个序列中每个量都求出来过，并且每个量都可以表示成它之前任何一个量的函数，因此，对于最后一个量来说，在这个序列中选取之前的任何一项，都有如下关系：
$\mathbf{o_{L}=t(之前任意一项)}$

我们选取 $a_{l}$ 项，再加上等式一，可得：

$\mathbf{o_{L}=t(a_{l})}$
$\mathbf{a_{l}=W_{l}o_{l-1}=g(W_{l})}$
上式可化为 $\mathbf{o_{L}=t(g(W_{l}))}$ 。

$C$ 是一个关于 $o_{L}$ 的函数，这里假设其为 $h(o_{L})$ ,再联系上式，显然 $C$ 是一个关于 $\mathbf{W_{l}}$ 的复合函数。根据链式求导法则，有 $\frac{\partial C}{\mathbf{\partial W_{l}}}=\frac{\partial C}{\mathbf{\partial a_{l}}} \mathbf{\frac{\partial a_{l}}{\partial W_{l}}}$

根据上式，很显然这里的 $\mathbf{\frac{\partial a_{l}}{\partial W_{l}}=\frac{\partial W_{l}o_{l-1}}{\partial W_{l}}=o_{l-1}}$

在此定义 $\frac{\partial C}{\mathbf{\partial a_{l}}}$ 这一项为误差 $\mathbf{\xi_{l}}$ , $\mathbf{\frac{\partial a_{l}}{\partial W_{l}}}$ 求出来为 $\mathbf{o_{l-1}}$ , $\mathbf{\xi_{l}}$ 为相当重要的一个值，它是第l层的误差向量。BP之所以叫误差反向传播，即来源于这个误差向量沿着从右向左的方向来传播。

现在，等式变为 $\frac{\partial C}{\mathbf{\partial W_{l}}}=\mathbf{\xi_{l}o_{l-1}}$ ,对于我们来说， $\mathbf{\xi_{l}o_{l-1}}$ 中的 $\mathbf{o_{l-1}}$ 是已知的，只是不知道 $\mathbf{\xi_{l}}$ ，这时我们就要想办法来求出这一项。我们回顾一下现在都知道了哪些量：首先，我们知道这一次还未更新时的所有层的权重 $\mathbf{W_{1}，W_{2}，...，W_{n}}$ ，上文所提到的在当前权重下计算出来的 $\mathbf{o_{0}，a_{1}，o_{1}，a_{2}，o_{2},.......,o_{L}}$ ，还有其他一大堆等式。

我们要想办法通过这些已知量来求出 $\mathbf{\xi_{l}}$ ，如何才能把这些已知量和 $\mathbf{\xi_{l}}$ 联系起来呢？这时我们就需要用到上文提到的两个等式以及 $\mathbf{\xi_{l}}$ 的定义式：

等式一： $\mathbf{a_{l}=W_{l}o_{l-1}}$
等式二： $\mathbf{o_{l}=f(a_{l})}$
$\mathbf{\xi_{l}}$ 的定义式： $\mathbf{\xi_{l}=\frac{\partial C}{\partial a_{l}}}$

通过观察发现 $\xi_{L}$ 可以求出来，因为上文有 $\mathbf{C=\frac{1}{2}||o_{L}-y||^2}$ ，可对 $\mathbf{\xi_{l}}$ 的定义式进行代换，代换之后为：

$\mathbf{\xi_{l}=\frac{\partial \frac{1}{2}||o_{L}-y||^2}{\mathbf{\partial a_{l}}}=\frac{\partial \frac{1}{2}||f(a_{L})-y||^2}{\mathbf{\partial a_{l}}}}$

通过观察这个等式，我们发现当其中的 $a_{l}=a_{L}$ 时，我们可以得到

$\mathbf{\xi_{L}=\frac{\partial \frac{1}{2}||o_{L}-y||^2}{\mathbf{\partial a_{L}}}=\frac{\partial \frac{1}{2}||f(a_{L})-y||^2}{\mathbf{\partial a_{L}}}=(f(a_{L})-y)\circ f'(a_{L})}$

上述点乘代表将相同形式的矩阵的相同位置相乘。现在，我们发现 $\mathbf{\xi_{L}}$ 也是已知的，那我们就可以想办法构造递推公式，将 $\mathbf{\xi_{l}}$ 用 $\mathbf{\xi_{L}}$ 表示出来，那么 $\mathbf{\xi_{l}}$ 就会被求出。递推公式构造方法如下：

$\mathbf{\xi_{l}=\frac{\partial C}{\partial a_{l}}=\frac{\partial C}{\partial o_{l}}\frac{\partial o_{l}}{\partial a_{l}}=\frac{\partial C}{\partial a_{l+1}}\frac{\partial a_{l+1}}{\partial o_{l}}\frac{\partial o_{l}}{\partial a_{l}}}$

通过上述等式一二我们可得:

$\mathbf{\frac{\partial a_{l+1}}{\partial o_{l}}=W_{l+1}}$

$\mathbf{\frac{\partial o_{l}}{\partial a_{l}}=f'(a_{l})}$

至此， $\mathbf{\xi_{l}}$ 的递推公式已经确定：

$\mathbf{\xi_{l}=\xi_{l+1}W_{l+1}f'(a_{l})}$

但由于这些量都是矩阵、向量，因此要注意他们相乘时的形式和顺序，最后化出来应该是这样： $\mathbf{\xi_{l}=(W_{l+1}\xi_{l+1}) \circ f'(a_{l})}$

这样递推式就确定了，我们就可以根据 $\mathbf{W_{l}=W_{l}}-\eta\frac{\partial C}{\mathbf{\partial W_{l}}}$ 来更新每层权重了。

至此，BP算法也介绍完毕。

长剑轻吟

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
BP算法简述

BP算法简述一、正向传播这是一个简单的网络模型，正向传播就是将一个样本数据X(X=[x1x_{1}x1,x2x_{2}x2,…,xnx_{n}xn])输入，从而获取输出的过程。其中具体过程如下：通过这个过程就是不断的进行线性组合以及激活函数，来获得本层输出，即下层输入。不断重复此过程就可达网络的最后一层。对每层来说，有两个运算过程：等式一：ala_{l}al=WlW_{l}Wlol−1o_{l-1}ol−1等式一：olo_{l}ol=f(al)f(a_{l})f(al)由此，
复制链接

扫一扫