BP神经网络原理

最新推荐文章于 2024-03-02 01:14:21 发布

_荣耀之路_

最新推荐文章于 2024-03-02 01:14:21 发布

阅读量2.4k

点赞数 3

文章标签： bp 神经网络推导

本文链接：https://blog.csdn.net/asty9000/article/details/85295295

版权

机器学习同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

算法

10 篇文章 0 订阅

订阅专栏

BP神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络（摘自百度百科）。

结构与原理

神经网络由三部分组成，分别是输入层、隐藏层和输出层，三层指的是三类而不是三个，其中输入层与输出层只有一层，而隐藏层则可以是多层的。每一层都有一定数量的神经元，不同层之间的神经元用线连接起来，每条线都有一定的权重，除了权重，没层还可能会有对应的偏置。

BP神经网络的学习过程由信号的正向传播和误差的反向传播两个过程组成。正向传播时，输入样本由输入层传入，经过隐藏层处理后，传入输出层，输出层计算输出预测的结果，正向传播过程到此结束。当预测的结果与期望存在误差时，则会将误差进行反向传播，通过计算出的误差来反向依次调整隐藏层到输出层的权重和偏置、输入层到隐藏侧的权重和偏置。如此循环两个过程，直至满足停止条件，如权重的更新低于某个域值，预测的错误率低于某个域值，达到一定的迭代次数等。

如图第一层为输入层，最后一层为输出层，第的2到层都为隐藏层，图中只画了一层隐藏层。其中的+1，为偏置。 $x_{1}$ 、 $x_{2}$ ... $x_{n}$ 为输入单个样本的输入。 $w_{ij}^{l}$ 表示从第 l-1 层的第个神经元指向第层的第个神经元的线的权重。 $b_{j}^{l}$ 表示第层第个神经元的偏置。 $z_{j}^{l}$ 表示第 l-1 层神经元到第层的第个神经元的加权和。 $a_{j}^{l}$ 表示第层的第个神经元的加权和 $z_{j}^{l}$ 经过激活函数计算后得到该神经元的输出值。除了输入层，其他层的神经元都会有一个前一层神经元的加权和做为激活函数的输入，然后得到输出。

1.正向传播

对于第层的第个神经元，它的输入 $z_{j}^{l}$ 为：

$z_{j}^{l}=(\sum_{i=1}^{n}w_{ij}^{l}a_{i}^{l-1} )+b_{j}^{l}$

假设 $\phi$ 为激活函数，则第层的第个神经元，它的输出 $a_{j}^{l}$ 为：

$a_{j}^{l}=\phi (z_{j}^{l})$

而对于整个第层权重矩阵 $w^{l}$ 为：

$w^{l}=\begin{bmatrix} w_{11}^{l} & w_{21}^{l} & \cdots & w_{n1}^{l} \\ w_{12}^{l} & w_{22}^{l} & \cdots & w_{n2}^{l} \\ \vdots & \vdots & \ddots &\vdots \\ w_{1j}^{l} & w_{2j}^{l} & \cdots & w_{nj}^{l} \end{bmatrix}$ ， $w^{l}\in \mathbb{R}^{j\times n}$ ，为第层神经元数量，为第 l-1 层神经元数量。第列即为第 l-1 层的第个神经元到第层各神经元的连线的权重。

第层偏置矩阵 $b^{l}$ 为：

$b^{l}=\begin{bmatrix} b_{1}^{l}\\ b_{2}^{l}\\ \vdots\\ b_{j}^{l} \end{bmatrix}$

第层神经元的输入矩阵 $Z^{l}$ 即为：

$z^{l}=\begin{bmatrix} w_{11}^{l} & w_{21}^{l} & \cdots & w_{n1}^{l} \\ w_{12}^{l} & w_{22}^{l} & \cdots & w_{n2}^{l} \\ \vdots & \vdots & \ddots &\vdots \\ w_{1j}^{l} & w_{2j}^{l} & \cdots & w_{nj}^{l} \end{bmatrix} \cdot\begin{bmatrix} a_{1}^{l-1}\\ a_{2}^{l-1}\\ \vdots\\ a_{n}^{l-1} \end{bmatrix}+\begin{bmatrix} b_{1}^{l}\\ b_{2}^{l}\\ \vdots\\ b_{j}^{l} \end{bmatrix}=\begin{bmatrix} w_{11}^{l}a_{1}^{l-1}+w_{21}^{l}a_{2}^{l-1}+\cdots+w_{n1}^{l}a_{n}^{l-1}+b_{1}^{l}\\ w_{12}^{l}a_{1}^{l-1}+w_{22}^{l}a_{2}^{l-1}+\cdots+w_{n2}^{l}a_{n}^{l-1}+b_{2}^{l}\\ \vdots\\ w_{1j}^{l}a_{1}^{l-1}+w_{2j}^{l}a_{2}^{l-1}+\cdots+w_{nj}^{l}a_{n}^{l-1}+b_{j}^{l} \end{bmatrix}$

第层的输出矩阵 $a^{l}$ 即可表示为：

$a^{l}=\phi (z^{l})=\phi (w^{l}a^{l-1}+b^{l})$

若是多个样本，则 $a^{l}$ 、 $z^{l}$ 为多列，每一列代表一个样本。

当为2时， $a^{1}=x$ ，即样本的值。

2.反向传播

对于单个样本 $(x^{m},y^{m})$ ，假设样本正向传播的输出 $\widehat{y}^{m}$ 为：

$\widehat{y}^{m}=\begin{bmatrix} \widehat{y}_{1}^{m}\\ \widehat{y}_{2}^{m}\\ \vdots\\ \widehat{y}_{k}^{m} \end{bmatrix}=a^{l+1}=\phi (z^{l+1})$

定义单个样本的误差 $L^{m}$ 为：

$L^{m}=L(\widehat{y}^{m}-y^{m})$

其中L是损失函数，具体是什么根据需要选择，如平方损失函数、交叉熵损失函数等。

反向传播的目的为了让 $L^{m}$ 的值尽可能的小。而对于一个样本输出值 $\widehat{y}^{m}$ 是由输出层的输入 $z^{l+1}$ 决定的，而 $z^{l+1}$ 则是受隐藏层到输出层的神经元的线权重 $w^{l+1}$ 和偏置 $b^{l+1}$ 影响的。所以通过调整权重 $w^{l+1}$ 和偏置 $b^{l+1}$ 就可以先影响输出层的输入 $z^{l+1}$ ，再影响到输出 $\widehat{y}^{m}$ ，最后影响到 $L^{m}$ 。由于梯度表示函数在某一点处沿着梯度的方向增长最快，沿着梯度的方向可以取得函数的最大值。而我们要求的是函数的最小值，所以要沿着与梯度相反的方向调整参数来最小化 $L^{m}$ 。问题就转化为了对误差函数 $L^{m}$ 求和的偏导。

根据链式法则，对于单个样本从隐藏层层第个神经元到输出层（ l+1 层）第个神经元的线权重 $w_{jk}^{l+1}$ 的偏导 $\bigtriangledown_{w_{jk}^{l+1}}$ 为：

$\bigtriangledown_{w_{jk}^{l+1}}=\frac{\partial L_{k}^{m}}{\partial\widehat{y}_{k}^{m}}\cdot\frac{\partial\widehat{y}_{k}^{m}}{\partial z_{k}^{l+1}}\cdot\frac{\partial z_{k}^{l+1}}{\partial w_{jk}^{l+1}}={L}'(\widehat{y}_{k}^{m})\cdot{\phi }'(z_{k}^{l+1})\cdot a_{j}^{l}$

同理偏置 $b_{k}^{l+1}$ 的偏导 $\triangledown b_{k}^{l+1}$ 为：

$\bigtriangledown_{b_{k}^{l+1}}=\frac{\partial L_{k}^{m}}{\partial\widehat{y}_{k}^{m}}\cdot\frac{\partial\widehat{y}_{k}^{m}}{\partial z_{k}^{l+1}}\cdot\frac{\partial z_{k}^{l+1}}{\partial b_{k}^{l+1}}={L}'(\widehat{y}_{k}^{m})\cdot{\phi }'(z_{k}^{l+1})\cdot 1={L}'(\widehat{y}_{k}^{m})\cdot{\phi }'(z_{k}^{l+1})$

由此整个隐藏层层到输出层的神经元的偏置矩阵的偏导 $\triangledown b^{l+1}$ 为：

$\bigtriangledown b^{l+1}=\bigtriangledown _{a^{l+1}}L\odot {\phi}'(z^{l+1})$

线权重矩阵的偏导 $\bigtriangledown_{w^{l+1}}$ 为：

$\bigtriangledown w^{l+1}=\bigtriangledown b^{l+1}{a^{l}}^{T}$

若是多个样本，则 $a^{l+1}$ 、 $a^{l}$ 、 $z^{l}$ 为多列，每一列代表一个样本。

对于单个样本从隐藏 l-1 层第个神经元到隐藏层层第个神经元的线权重 $w_{nj}^{l}$ 的偏导 $\bigtriangledown w_{nj}^{l}$ 为：

$\bigtriangledown w_{nj}^{l}=\frac{\partial a_{j}^{l}}{\partial z_{j}^{l}}\cdot\frac{\partial z_{j}^{l}}{\partial w_{nj}^{l}}={\phi }'(z_{j}^{l})\cdot a_{n}^{l-1}$

偏置 $b_{j}^{l}$ 的偏导 $\triangledown b_{j}^{l}$ 为：

$\triangledown b_{j}^{l}= \frac{\partial a_{j}^{l}}{\partial z_{j}^{l}}\cdot \frac{\partial z_{j}^{l}}{\partial b_{j}^{l}}= \frac{\partial a_{j}^{l}}{\partial z_{j}^{l}}\cdot 1={\phi}'(z_{j}^{l})$