bp神经网络原理

最新推荐文章于 2024-03-02 01:14:21 发布

spiderA

最新推荐文章于 2024-03-02 01:14:21 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习文章标签：神经网络反向误差传播机器学习 bp

本文链接：https://blog.csdn.net/u011800133/article/details/101765796

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

BP神经网络是一种按误差反向传播训练的多层前馈网络，其算法称为BP算法，它的基本思想是梯度下降法，利用梯度搜索技术，使网络的实际输出值和期望输出值的误差均方差为最小。bp神经网络具有非常强的非线性映射能力，理论上可以以任意精度逼近期望输出。主要用于模式识别、函数逼近、数据压缩、系统辨识等。

bp学习算法

误差反向传播算法,用于多层感知器学习算法。

bp学习过程描述

工作信号正向传播
输入信号经过输入层、隐藏层、输出层后的到输出。在传播过程中，网络参数不变，当输出与期望存在偏差时转入反向传播。
误差信号反向传播
当输出与期望存在偏差时，这个偏差信号从输出开始逐层向前(输入端)，逐层传播过程中，根据误差信号调整各层参数，最终通过对权值不断的调整使输出接近期望。

算法原理

设多层神经网络中某一层L,有J个神经元；输出层为P，有J个神经元；

符号	描述
$w^{L}$	第L层神经元权值向量
$w_{j}^{L}$	第L层第j个神经元权值
$z_{j}^{L}$	第L层第j个神经元激励输入
$y_{j}^{L}$	第L层第j个神经元激励输出
$y_{j}^{L-1}$	第L-1层第j个神经元激励输出
$w^{P}$	输出层神经元权值向量
$w_{j}^{P}$	输出层第j个神经元权值
$z_{j}^{P}$	输出层第j个神经元激励输入
$y_{j}^{P}$	输出层第j个神经元激励输出
$y_{j}^{P-1}$	输出层的上一层第j个神经元激励输出
$d_{j}$	输出层第j个神经元期望

第L层第j个神经元激励输入：
$z_{j}^{L} = \sum_{j=1}^{J} w_{j}^{L}y_{j}^{L-1}$
第L层第j个神经元激励输出为：
$y_{j}^{L} = f(z_{j}^{L} )$
输出层P第j个神经元激励输入：
$z_{j}^{p} = \sum_{j=1}^{J} w_{j}^{p}y_{j}^{p-1}$
输出层第j个神经元激励输出为：
$y_{j}^{p} = f(z_{j}^{p} )$
输出层第j个神经元误差:
$e_{j} = d_{j} - y_{j}^{p}$

设n为迭代次数，定义误差性能函数为：
$e_{j}(n) = \frac{1}{2}(d_{j}(n) - y_{j}^{p}(n))^{2}$
则输出总误差累积可表示为：
$\sum_{j=1}^{J} e_{j}(n)$

bp算法中，误差反向传播是不断更新权值w的一个过程，意思是调整w参数可以使E(n)到达最小。为使误差快速减小，实际上是按照E(n)的梯度相反方向更新w的值，即：
$\Delta w = -\eta \frac{\partial E(n)}{\partial w(n)}$
η为一个常数，称为学习速率，η的大小直接影响E(n)到达最小化时间。

设经过第n次迭代后，第L层神经元权值向量调整量为：

$\Delta w^{L}(n)$

则：
$\Delta w^{L}(n) = -\eta \frac{\partial E(n)}{\partial w^{L}(n)}$
$\Delta w^{L}(n) = -\eta \frac{\partial E(n)}{\partial z^{L}(n)} \frac{\partial z^{L}(n)}{\partial w^{L}(n)}$

其中：
$\frac{\partial z^{L}(n)}{\partial w^{L}(n)} = y^{L-1}(n)$ （等于第L层的输入，即第L-1层的激励输出）

所以：
$\Delta w^{L}(n) = -\eta \frac{\partial E(n)}{\partial z^{L}(n)} y^{L-1}(n)$

令：
$\delta^{L}(n) = \frac{\partial E(n)}{\partial z^{L}(n)}$ (表示第L层的误差权值向量，与wL有相同的维度)

则设经过第n次迭代后，第L层神经元权值向量调整量可表示为：
$\Delta w^{L}(n) = -\eta \delta^{L}(n) y^{L-1}(n)$

这里要求出L层权值调整量只需求出δ(n)即可，其他为已知的。

假设第L+1层的权值误差向量为δ(L+1)，根据之前推导则有:

$\delta^{L+1} (n) = \frac{\partial E(n)}{\partial z^{L+1}(n)}$

则第L层权值向量可表示为:

$\delta^{L}(n) = \frac{\partial E(n)}{\partial z^{L+1}(n)}\frac{\partial z^{L+1}(n)}{\partial y^{L}(n)} \frac{\partial y^{L}(n)}{\partial z^{L}(n)}$

$\delta^{L}(n) = \delta^{L+1} (n) \frac{\partial z^{L+1}(n)}{\partial y^{L}(n)} \frac{\partial y^{L}(n)}{\partial z^{L}(n)}$

因为
$z_{j}^{L} = \sum_{j=1}^{J} w_{j}^{L}y_{j}^{L-1}$

所以
$\frac{\partial z^{L+1}(n)}{\partial y^{L}(n)} =w^{L+1}(n)$

因为：

$y_{j}^{L} = f(z_{j}^{L} )$

所以：
$\frac{\partial y^{L}(n)}{\partial z^{L}(n)} = f'(z^{L}(n))$

所以第L层权值误差向量可表示为:

$\delta^{L}(n) = \delta^{L+1} (n) w^{L+1}(n) f'(z^{L}(n)) -----(1)$

第L层的权值调整量为:
$\Delta w^{L}(n) = -\eta \delta^{L}(n) y^{L-1}(n) -----(2)$

由1、2式可知第L层的调整量与第L+1层的误差向量有关，所以只要求出最后一层(输出层)的误差向量即可推导出任意一层的误差向量，即得出任意一层的权值调整量。

设输出层第j个神经元误差向量为：
$\delta^{p} (n) = \frac{\partial E(n)}{\partial z^{p}(n)}$
因为 $e_{j}(n) = \frac{1}{2}(d_{j}(n) - y_{j}^{p}(n))^{2}$

所以
$\delta^{p} (n) = \frac{ \frac{1}{2} \partial \sum_{j=1}^{J} (d_{j}(n) - y_{j}^{p}(n))^{2} }{\partial z^{p}(n)}$

$\delta^{p} (n) = \frac{ \frac{1}{2} \partial \sum_{j=1}^{J} (d_{j}(n) - y_{j}^{p}(n))^{2} }{\partial y^{p}(n)} \frac{ \partial y^{p}(n) }{\partial z^{p}(n)}$
$\delta^{p} (n) = -(d(n) - y^{p}(n)) \frac{ \partial y^{p}(n) }{\partial z^{p}(n)}$
因为： $y_{j}^{p} = f(z_{j}^{p} )$
则输出层误差向量为：
$\delta^{p} (n) = (y^{p}(n) - d(n) ) f'(z^{p}(n))$