BP反向传播详细推导

最新推荐文章于 2024-07-02 20:59:51 发布

酉意铭

最新推荐文章于 2024-07-02 20:59:51 发布

阅读量1.2k

点赞数

分类专栏：算法文章标签： BP反向传播算法梯度

本文链接：https://blog.csdn.net/weixin_40671425/article/details/98471334

版权

算法专栏收录该内容

32 篇文章 2 订阅

订阅专栏

BP神经网络是反向传播算法，他是一个非线性的前馈神经网络。由于网络参数需要更新，反向指的是参数梯度的反向传播，输入向前传播。非线性是因为神经元的激活函数是一个非线性可导的sigmoid函数。先来看看神经元的激活函数，即sigmoid函数：

${\rm{f(x) = sigmoid}}(x) = \frac{1}{{1 + {e^{ - x}}}}$

该函数的特点是：

其图像为：

Sigmoid函数把可能在较大范围内变化的输入值挤压到（0，1）的范围内，并且该函数是可导的。当然，sigmoid函数只是神经元激活函数的一种，但却是最常用的一种激活函数。

首先，我们来看看BP算法的真面目。给定一个训练集（含有m个样本）。

$D = \{ ({x_1},{y_x}),({x_2},{y_2}),...,({x_m},{y_m})\}$ ，其中 ${x_i} \in {{\rm{R}}^d}$ 表示输入由 d 个属性描述（特征维度为d）， ${y_i} \in {R^l}$ 表示输出为维实值向量（l 个类别）。为了便于讨论，下图给出了一个拥有个输入神经元，个输出神经元和个隐藏神经元的多层前馈神经网络。该网络包含一个输出层，一个隐藏层，一个输出层。其中隐藏层的阈值是 $\gamma$ ，输出层的阈值是 $\theta$ 。

现在设定符号标准：

${\nu _{ih}}$ ：输入层第i个神经元和隐藏层第h个神经元之间连接的权值

${\omega _{hj}}$ ：隐藏层第h个神经元和输出层第j个神经元之间连接的权值

${\alpha _h} = \sum\limits_{i = 1}^d {{\nu _{ih}}{x_{\rm{i}}}}$ ：隐藏层第h个神经元的输入， ${x_{\rm{i}}}$ 是输入层的第i个输入

${\beta _j} = \sum\limits_{h = 1}^{\rm{q}} {{\omega _{hj}}{b_h}}$ ：输出层第j个神经元的输入， ${b_h}$ 是输出层的输入，也就是隐藏层的输出

${b_h} = f({\alpha _h} - {\gamma _h})$ ：隐藏层第h个神经元的输出，即输出层的第h个输入， ${\gamma _h}$ 是隐藏层第h个神经元的阈值（偏置）

$\mathop {y_j^k}\limits^\^ = f({\beta _j} - {\theta _j})$ ：第k个输入神经元的网络输出 $\mathop {{y_k}}\limits^\^ = (\mathop {y_1^k}\limits^\^ ,\mathop {y_2^k}\limits^\^ ,...,\mathop {y_l^k}\limits^\^ )$ ， ${\theta _j}$ 是输出层的阈值（偏置）

${y_j}$ ：输出层第j个神经元的理想输出

根据神经网路结构图可以看出网络中要确定的变量个数是 (d + l + 1)q + l 个，其中输入层到隐藏层有d*q个权值变量，隐藏层到输出层有 q*l 个权值变量，还包括q个隐藏层神经元阈值和 l 个输出层神经元阈值。

则网络在 $({x_k},{y_k})$ 上的均方误差为： ${E_k} = \frac{1}{2}\sum\limits_{j = 1}^l {{{(\mathop {y_j^k}\limits^\^ - y_j^k)}^2}}$

BP神经网络的思想是根据均方误差，来调整每条连接线的权值和阈值(偏置)。从而使均方误差达到一个可以接受的值。

阈值是用来衡量是否可以结束神经网络算法的一个条件（当然还有其他的结束条件，达到一定的迭代次数，误差降低到某一程度。）

下面进行神经网络算法的推倒过程：（采用随机梯度下降法）

第k个输出样本在输出层的均方误差为： ${E_k} = \frac{1}{2}\sum\limits_{j = 1}^l {{{(\mathop {y_j^k}\limits^\^ - y_j^k)}^2}}$

现在以隐藏层到输出层的权值和阈值（偏置）调整方案为例：

定义： $\Delta {\omega _{hj}} = - \eta \frac{{\partial {E_k}}}{{\partial {\omega _{hj}}}}$ ，即用梯度下降法来调整权值的变化，其中负号表示梯度下降的方向， $\eta$ 表示学习效率（或叫做调整步长），一般取（0,1）。

因为： ${\omega _{hj}}$ 对输出层的输入 ${\beta _{\rm{j}}}$ 和输出层的输出 $\mathop {y_j^k}\limits^\^$ 都有影响，

所以： $\frac{{\partial {E_k}}}{{\partial {\omega _{hj}}}} = \frac{{\partial {E_k}}}{{\partial \mathop {y_j^k}\limits^\^ }}.\frac{{\partial \mathop {{\rm{y}}_j^k}\limits^\^ }}{{\partial {\beta _j}}}.\frac{{\partial {\beta _j}}}{{\partial {\omega _{hj}}}}$

而 $\frac{{\partial {\beta _j}}}{{\partial {\omega _{hj}}}} = {b_h}$ ， $\frac{{\partial \mathop {{\rm{y}}_j^k}\limits^\^ }}{{\partial {\beta _j}}} = \mathop {{\rm{y}}_j^k}\limits^\^ (1 - \mathop {{\rm{y}}_j^k}\limits^\^ )$ 。因为 ${\beta _j}$ 是经过输出层神经元激活函数后得到输出 $\mathop {{\rm{y}}_j^k}\limits^\^$

$\frac{{\partial {E_k}}}{{\partial \mathop {y_j^k}\limits^\^ }} = \frac{{\partial (\frac{1}{2}\sum\limits_{j = 1}^l {{{(\mathop {y_j^k}\limits^\^ - y_j^k)}^2}} )}}{{\partial \mathop {y_j^k}\limits^\^ }} = (\mathop {y_j^k}\limits^\^ - y_j^k)$ 带入上述公式得

$\frac{{\partial {E_k}}}{{\partial {\omega _{hj}}}} = (\mathop {y_j^k}\limits^\^ - y_j^k)\mathop {{\rm{y}}_j^k}\limits^\^ (1 - \mathop {{\rm{y}}_j^k}\limits^\^ ){b_b}$

令： ${g_j} = - \frac{{\partial {E_k}}}{{\partial \mathop {y_j^k}\limits^\^ }}.\frac{{\partial \mathop {{\rm{y}}_j^k}\limits^\^ }}{{\partial {\beta _j}}} = - (\mathop {y_j^k}\limits^\^ - y_j^k)\mathop {{\rm{y}}_j^k}\limits^\^ (1 - \mathop {{\rm{y}}_j^k}\limits^\^ )$

则： $\Delta \omega = \frac{{\partial {E_k}}}{{\partial {\omega _{hj}}}} = \eta {g_j}{b_n}$ ——》这是 $\omega$ 的调整方法：

现在推倒 $\theta$ 的调整方法：

$\Delta {\theta _j} = - \eta \frac{{\partial {E_{\rm{k}}}}}{{\partial {\theta _j}}} = - \eta \frac{{\partial (\frac{1}{2}\sum\limits_{j = 1}^l {{{(\mathop {y_j^k}\limits^\^ - y_j^k)}^2}} )}}{{\partial {\theta _j}}} = - \eta \frac{{(\mathop {y_j^k}\limits^\^ - y_j^k)\partial f({\beta _l} - {\theta _j})}}{{\partial {\theta _j}}} = - \eta ( - \mathop {y_j^k}\limits^\^ (\mathop {y_j^k}\limits^\^ - y_j^k)(1 - \mathop {y_j^k}\limits^\^ )) = - \eta {g_j}$

到此，权重和阈值的调整方法都已经知道了:

现在我们再来推倒一下 $\Delta {\nu _{ih}}$ ，因为 $\Delta {\nu _{ih}}$ 的影响路径： $\Delta {\nu _{ih}} \to {\alpha _h} \to {b_h}$

$\Delta {\nu _{ih}} = - \eta \frac{{\partial {E_k}}}{{\partial {\nu _{ih}}}} = - \eta \frac{{\partial {E_k}}}{{\partial {b_h}}}.\frac{{\partial {b_h}}}{{\partial {\alpha _h}}}.\frac{{\partial {\alpha _h}}}{{\partial {\nu _{ih}}}}$