BP网络推导过程以及例子

最新推荐文章于 2025-03-02 08:51:05 发布

ZJE_ANDY

最新推荐文章于 2025-03-02 08:51:05 发布

阅读量6.1k

点赞数 18

分类专栏： # 神经网络

本文链接：https://blog.csdn.net/u014453898/article/details/88607537

版权

神经网络专栏收录该内容

20 篇文章

订阅专栏

（不关心推导过程的，可以直接从“四”开始看例子）

BP神经网络：

以只有一个隐藏层的BP神经网络为例：

1.隐藏层和输出层的激活函数f1和f2都用Sigmodi函数，即： $f(x)=\frac{1}{1+e^{-x}}$ ，因为BP网络的激活函数必须可导，所以Sigmoid函数是可取的选择。

2.当BP网络反向调整网络权值时，激活函数的导数是经常用到的，因此我们先对激活函数f(x)求导：

$f'(x)=\frac{e^{^{-x}}}{(1+e^{-x})^{2}} =\frac{1}{1+e^{-x}}\cdot \frac{e^{-x}}{1+e^{-x}}=\frac{1}{1+e^{-x}}\cdot (1-\frac{1}{1+e^{-x}})$

所以:

重要： $f'(x)=f(x)\cdot (1-f(x))$

BP网络神经元：

从神经网络中拿出一个神经元 j 分析：

其中令 $X=[x_{0},x_{1},.....,x_{n}]^{T}$ 向量表示所有输入。 $W_{j}=[W_{j0},W_{j1},.....,W_{jn}]^{T}$ 向量表示所有权值。

$net_{j}=\sum_{i=1}^{n}(w_{ij}\cdot x_{i})+\Theta _{j}=W_{j}\cdot X$ ,其中 $(x_{0}=1,w_{j0}=\Theta _{j})$ 。

netj 经过激活函数处理后，就成为神经元 j 的输出 Oj了。

即： $O_{j} = f(net_{j})$

一：BP算法第一阶段：输入信息的正向传播阶段

为了理论一致性，这里先不假设激活函数为Sigmoid函数，而是用 f1()表示隐藏层的激活函数，f2()表示输出层激活函数：

隐藏层结点的输出：

其中Vki为 Xi 到 Zk 的权重。可以见到Z的值为各个输入乘对应权重之和再经过激活函数输出的值。

输出层结点的输出：

其中Wjk为 Zk 到 Oj 的权重。

二：BP算法第二阶段：误差反向传播阶段

（1）由于训练样本中，出现异常数据(即噪音数据)是常见的事情，因此，如果因为噪音数据而调整网络参数的话，就会影响网络的准确率。

因此在神经网络中，批处理是经常被用来解决噪音数据的方法，意思是并非一个输入样本[x1，x2....xn]输入网络后，马上调整网络的权值，而是当输入一组样本(例如一组有p个样本)后，才开始调整权值。

（2）到误差反传阶段，我们需要定义损失函数：

若数据集的期望输出是 Y，而网络的输出是 O，则误差当然为 (Y - O)：

但一般我们不会只写成这种形式，而是：

表示第p个样本的误差。乘了个1/2 和加了个平方是因为，后面的操作会对损失函数进行求导，这样可以方便计算。

同理，一组样本的误差为：

（3）有了损失函数之后，我们要求哪个参数的变化量，就对损失函数求该参数的导：（如Wjk）

下面公式是基于梯度下降法来做的，往着负梯度方向就是使损失函数E达到最小值的方向。（ $\eta$ 为学习率）

(1)

由于： $E=\sum_{p=1}^{P}E_{p}$ ，代入上式(1)，得：

(2)

（2）式变形可得（3）式：----->详情参考独立神经元的图：

(3)

（3）式中红圈处可以继续拆分：

最后得输出层的权值调整量：

(4)

到此，隐藏层Z到输出层O之间的各个权值W的调整量就出来了。（如黄色圈）

接下来，我们继续反向传导，求出输入层X到隐藏层Z之间的权值V的调整量。

三，求输入层X到隐藏层Z之间的权值V的调整量

依然从损失函数E下手：

同样用梯度下降的方法，所以（例如）权值Vki的调整量为：

(3.1)

由（3.1）可以继续拆解为：

（3.4）

红色圈可以继续拆分：

所以（3-53）为输入层到隐藏层权值Vki的调整量公式。

从W和V的调整量公式可以看出，W 为隐藏层到输出层的权值，W的调整量公式带有一个激活函数f2的导数。

而V离输出层隔了两层，因此V的调整量公式不仅与输出层的激活函数f2有关，还与隐藏层的激活函数f1有关。

四，例子：

所举例子人仍是一层隐藏层的BP网络模型：

例：如下图，假设对于输入 $[x_{1} ,x_{2}]^{T}=[1,3]^{T}$ ,其期望输出为 $[t_{1},t_{2}]^{T}=[0.95,0.05]^{T}$ 网络权重系数的初始值如下图，并且这里的神经元激活函数都为Sigmoid函数，即 $f(x)=\frac{1}{1+e^{-x}}$ ,所以其导数 $f^{'}(x)=f(x)\cdot (1-f(x))$ ,学习步长 $\eta =1$ ，其中偏置量 $\Theta =1$ ，可以看到其作为额外输入输入到神经网络中：