BP算法数学原理

最新推荐文章于 2024-04-20 16:19:16 发布

Atomwh

最新推荐文章于 2024-04-20 16:19:16 发布

阅读量2.5k

点赞数 1

分类专栏：神经网络文章标签：算法神经网络

本文链接：https://blog.csdn.net/A_a_ron/article/details/52825172

版权

神经网络专栏收录该内容

8 篇文章 0 订阅

订阅专栏

定义

   BP算法，误差反向传播（Error Back Propagation, BP）算法。其最常见的应用是在前馈神经网络中。BP算法的基本思想是，神经网络的学习过程由信号的正向传播与误差的反向传播两个过程组成，信号经过逐层计算得到最终层的值，其值与样本目标值有一定的误差。最后一层的误差由前面多层神经网络加权而成，通过将误差进行反向传播来得到每一层的误差，最后通过每层的误差来调整神经网络的权值。由于多层前馈网络的训练经常采用误差反向传播算法，人们也常把将多层前馈网络直接称为BP网络。

问题描述

假设我们有一个固定样本集 $\{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})\}$ ，它包含 $m$ 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲，对于单个样例 $(x,y)$ ，其代价函数为：

J (W, b; x, y) = 1 2 ∥ h W, b (x) - y ∥ 2

$J(W,b;x,y)=\frac{1}{2}\lVert h_{W,b(x)}-y \rVert^2$
这是一个（二分之一的）方差代价函数。给定一个包含

m $m$ 个样例的数据集，我们可以定义整体代价函数为：

J (W, b) = [1 m \sum i = 1 m J (W, b; x (i), y (i))] + λ 2 \sum l = 1 n t - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2

$J(W,b)=[\frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)})]+\frac{\lambda}{2} \sum_{l=1}^{n_t-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} (W_{ji}^{(l)})^2$

= [1 m \sum i = 1 m (1 2 ∥ h (i) W, b - y (i) ∥ 2)] + λ 2 \sum l = 1 n t - 1 \sum i = 1 s l \sum j = 1 s l + 1 (W (l) j i) 2

$=[\frac{1}{m} \sum_{i=1}^m (\frac{1}{2} \lVert h_{W,b}^{(i)}-y^{(i)}\rVert^2)]+\frac{\lambda}{2} \sum_{l=1}^{n_t-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} (W_{ji}^{(l)})^2$
以上公式中的第一项

J(W,b) $J(W,b)$ 一个均方差项。第二项是一个规则化项（也叫权重衰减项），其目的是减小权重的幅度，防止过度拟合。
权重衰减参数

λ $\lambda$ 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义：

J(W,b;x,y) $J(W,b;x,y)$ 是针对单个样例计算得到的方差代价函数；

J(W,b) $J(W,b)$ 是整体样本代价函数，它包含权重衰减项。
我们的目标是针对参数

W $W$ 和

b $b$ 求其函数

J(W,b) $J(W,b)$ 的最小值。为了求解神经网络，我们需要将每一个参数

W(l)ij $W_{ij}^{(l)}$ 和

b(l)i $b_i^{(l)}$ 初始化为很小、接近零的随机值(比如说，使用正态分布

Normal(0,ϵ2) ${Normal}(0,\epsilon^2)$ 生成的随机值，其中

ϵ $\epsilon$ 设置为 0.01)，之后对目标函数使用诸如批量梯度下降法的最优化算法。因为

J(W,b) $J(W, b)$ 是一个非凸函数，梯度下降法很可能会收敛到局部最优解；但是在实际应用中，梯度下降法通常能得到令人满意的结果。最后，需要再次强调的是，要将参数进行随机初始化，而不是全部置为0。如果所有参数都用相同的值作为初始值，那么所有隐藏层单元最终会得到与输入值有关的、相同的函数（也就是说，对于所有

i $i$ ，

W(1)ij $W^{(1)}_{ij}$ 都会取相同的值，那么对于任何输入

x $x$ 都会有：

a(2)1=a(2)2=a(2)3=… $a^{(2)}_1 = a^{(2)}_2 = a^{(2)}_3 = \ldots$ ）。随机初始化的目的是使对称失效。

梯度下降及参数更新

梯度下降法中每一次迭代都按照如下公式对参数 $W$ 和 $b$ 进行更新：

W (l) i j = W (l) i j - α \partial \partial W ( l ) i j J (W, b) b (l) i = b (l) i - α \partial \partial b ( l ) i J (W, b)

$W_{ij}^{(l)} = W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\ b_{i}^{(l)} = b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b)$
其中

α $\alpha$ 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法，它是计算偏导数的一种有效方法。
我们首先来讲一下如何使用反向传播算法来计算

∂∂W(l)ijJ(W,b;x,y) $\frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)$ 和

∂∂b(l)iJ(W,b;x,y) $\frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y)$ ，这两项是单个样例

(x,y) $(x,y)$ 的代价函数

J(W,b;x,y) $J(W,b;x,y)$ 的偏导数。一旦我们求出该偏导数，就可以推导出整体代价函数

J(W,b) $J(W,b)$ 的偏导数：

\partial \partial W ( l ) i j J (W, b) = ⎡ ⎣ 1 m \sum i = 1 m \partial \partial W ( l ) i j J (W, b; x (i), y (i)) ⎤ ⎦ + λ W (l) i j \partial \partial b ( l ) i J (W, b) = 1 m \sum i = 1 m \partial \partial b ( l ) i J (W, b; x (i), y (i))

$\frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) = \left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) = \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)})$
以上两行公式稍有不同，第一行比第二行多出一项，是因为权重衰减是作用于

W $W$ 而不是

b $b$ 。

BP反向传播

我们定义：

$W_{ij}^{(l)}$ 第l层到第l+1层的权值，并且是l层的第j个单元到l+1层的第i个单元的权值。
$z^{(l)}$ 表示 $l$ 层神经元的状态
$a^{(l)}$ 表示 $l$ 层神经元的活性值
$f()$ 表示激活函数
$b^{(l)}$ 表示 $l-1$ 到 $l$ 层的偏置

反向传播算法的思路如下：给定一个样例 $(x,y)$ ，我们首先进行“前向传导”运算，计算出网络中所有的激活值，包括 $h_{W,b}(x)$ 的输出值。之后，针对第 $l$ 层的每一个节点 $i$ ，我们计算出其“残差” $\delta^{(l)}_i$ (残差的定义就是——总的代价函数对于某个节点的偏导。)，该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点，我们可以直接算出网络产生的激活值与实际值之间的差距，我们将这个差距定义为 $\delta^{(n_l)}_i$ （第 $n_l$ 层表示输出层）。对于隐藏单元我们如何处理呢？我们将基于节点（注：第 $l+1$ 层节点）残差的加权平均值计算 $\delta^{(l)}_i$ ，这些节点以 $a^{(l)}_i$ 作为输入。下面将给出反向传导算法的细节：

进行前馈传导计算，利用前向传导公式，得到 $L_2, L_3, \ldots$ 直到输出层 $L_{n_l}$ 的激活值。
对于第 $n_l 层$ （输出层）的每个输出单元 $i$ ，我们根据以下公式计算残差：
$δ (n l) i = \partial \partial z ( n l ) i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = - (y i - a (n l) i) \cdot f' (z (n l) i)$ $\delta^{(n_l)}_i = \frac{\partial}{\partial z^{(n_l)}_i} \;\; \frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i)$
注：
$δ (n l) i = \partial \partial z n l i J (W, b; x, y) = \partial \partial z n l i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = \partial \partial z n l i 1 2 \sum j = 1 S n l (y j - a (n l) j) 2 = \partial \partial z n l i 1 2 \sum j = 1 S n l (y j - f (z (n l) j)) 2 = - (y i - f (z (n l) i)) \cdot f' (z (n l) i) = - (y i - a (n l) i) \cdot f' (z (n l) i)$ $\delta^{(n_l)}_i = \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ = - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i)$
对 $l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各个层，第 $l$ 层的第 $i$ 个节点的残差计算方法如下： $δ (l) i = ⎛ ⎝ \sum j = 1 s l + 1 W (l) j i δ (l + 1) j ⎞ ⎠ f' (z (l) i)$ $\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$
注：
$δ (n l - 1) i = \partial \partial z n l - 1 i J (W, b; x, y) = \partial \partial z n l - 1 i 1 2 ∥ ∥ y - h W, b (x) ∥ ∥ 2 = \partial \partial z n l - 1 i 1 2 \sum j = 1 S n l (y j - a (n l) j) 2 = 1 2 \sum j = 1 S n l \partial \partial z n l - 1 i (y j - a (n l) j) 2 = 1 2 \sum j = 1 S n l \partial \partial z n l - 1 i (y j - f (z (n l) j)) 2 = \sum j = 1 S n l - (y j - f (z (n l) j)) \cdot \partial \partial z ( n l - 1 ) i f (z (n l) j) = \sum j = 1 S n l - (y j - f (z (n l) j)) \cdot f' (z (n l) j) \cdot \partial z ( n l ) j \partial z ( n l - 1 ) i = \sum j = 1 S n l δ (n l) j \cdot \partial z ( n l ) j \partial z n l - 1 i = \sum j = 1 S n l ⎛ ⎝ δ (n l) j \cdot \partial \partial z n l - 1 i \sum k = 1 S n l - 1 f (z n l - 1 k) \cdot W n l - 1 j k ⎞ ⎠ = \sum j = 1 S n l δ (n l) j \cdot W n l - 1 j i \cdot f' (z n l - 1 i) = ⎛ ⎝ \sum j = 1 S n l W n l - 1 j i δ (n l) j ⎞ ⎠ f' (z n l - 1 i)$ $\begin{align} \delta^{(n_l-1)}_i &=\frac{\partial}{\partial z^{n_l-1}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\ &= \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-a_j^{(n_l)})^2 = \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-f(z_j^{(n_l)}))^2 \\ &= \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot \frac{\partial}{\partial z_i^{(n_l-1)}}f(z_j^{(n_l)}) = \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot f'(z_j^{(n_l)}) \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{(n_l-1)}} \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{n_l-1}} = \sum_{j=1}^{S_{n_l}} \left(\delta_j^{(n_l)} \cdot \frac{\partial}{\partial z_i^{n_l-1}}\sum_{k=1}^{S_{n_l-1}}f(z_k^{n_l-1}) \cdot W_{jk}^{n_l-1}\right) \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot W_{ji}^{n_l-1} \cdot f'(z_i^{n_l-1}) = \left(\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\delta_j^{(n_l)}\right)f'(z_i^{n_l-1}) \end{align}$
[其中最后一步的化简因为是对 $z_i^{n_l-1}$ 求偏导，所有虽然有 $\sum_{k=1}^{S_{n_l}-1}$ 等很多个项，当 $k不等于i$ 的情况下，求偏导皆为0]
将上式中的 $n_l-1$ 与 $n_l$ 的关系替换为 $l与 l+1$ 的关系，就可以得到： $δ (l) i = ⎛ ⎝ \sum j = 1 s l + 1 W (l) j i δ (l + 1) j ⎞ ⎠ f' (z (l) i)$ $\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$
以上逐次从后向前求导的过程即为“反向传导”的本意所在。
计算我们需要的偏导数，计算方法如下：
$\partial \partial W ( l ) i j J (W, b; x, y) \partial \partial b ( l ) i J (W, b; x, y) = a (l) j δ (l + 1) i = δ (l + 1) i .$ $\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \end{align}$
[该步推导可见这里]

那么，反向传播算法可表示为以下几个步骤：
进行前馈传导计算，利用前向传导公式，得到 $L_2, L_3, \ldots$ 直到输出层 $L_{n_l}$ 的激活值。
对输出层（第 $n_l$ 层），计算：

δ (n l) = - (y - a (n l)) ∙ f' (z (n l))

$\begin{align} \delta^{(n_l)} = - (y - a^{(n_l)}) \bullet f'(z^{(n_l)}) \end{align}$
对于 \textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2 的各层，计算：

δ (l) = ((W (l)) T δ (l + 1)) ∙ f' (z (l))

$\begin{align} \delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)}) \end{align}$
计算最终需要的偏导数值：

\nabla W (l) J (W, b; x, y) \nabla b (l) J (W, b; x, y) = δ (l + 1) (a (l)) T, = δ (l + 1) .

$\begin{align} \nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\ \nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}. \end{align}$
[实现中应注意：在以上的第2步和第3步中，我们需要为每一个

i $i$ 值计算其

f′(z(l)i) $f'(z^{(l)}_i)$ 。]

反向传播表示为一下步骤：
这里写图片描述

实现批量梯度下降法中的一次迭代：
这里写图片描述
现在，我们可以重复梯度下降法的迭代步骤来减小代价函数 $J(W,b)$ 的值，进而求解我们的神经网络。

参考文献

http://ufldl.stanford.edu/wiki/index.php/

Atomwh

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
BP算法数学原理

定义 BP算法，误差反向传播（Error Back Propagation, BP）算法。其最常见的应用是在前馈神经网络中。BP算法的基本思想是，神经网络的学习过程由信号的正向传播与误差的反向传播两个过程组成，信号经过逐层计算得到最终层的值，其值与样本目标值有一定的误差。最后一层的误差由前面多层神经网络加权而成，通过将误差进行反向传播来得到每一层的误差，最后通过每层的误差来调整神经网络的权值。由
复制链接

扫一扫

专栏目录