BP（Back Propagation）神经网络——原理篇

AXYZdong

已于 2022-02-21 19:58:45 修改

阅读量8.4w

点赞数 220

分类专栏：【机器学习】文章标签：神经网络机器学习

于 2021-08-24 10:43:03 首次发布

本文链接：https://blog.csdn.net/qq_43328313/article/details/119577026

版权

【机器学习】专栏收录该内容

13 篇文章

订阅专栏

本文深入介绍了BP神经网络的基础，包括神经网络的定义、感知器模型、BP网络的结构与传播规则，以及梯度下降学习法。重点阐述了反向传播过程和学习算法的改进，如动量项和变步长法。此外，还展示了BP神经网络在预测、评价和图像处理等多个领域的应用，并提供了简单的代码实现。最后，讨论了BP神经网络的误差处理和权重更新过程，强调了其在控制理论中的闭环系统特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Author：AXYZdong 自动化专业工科男
有一点思考，有一点想法，有一点理性！
定个小小目标，努力成为习惯！在最美的年华遇见更好的自己！
CSDN@AXYZdong，CSDN首发，AXYZdong原创
唯一博客更新的地址为： 👉 AXYZdong的博客 👈
B站主页为：AXYZdong的个人主页

前言

神经网络控制是20世纪80年代以来，在人工神经网络（Artificial Neural Networks，ANN）研究取得的突破性进展基础上发展起来的自动控制领域的前沿学科之一。它是智能控制的一个新的分支，为解决复杂的 非线性、不确定、不确知 系统的控制问题开辟了一条新的途径。

1. 什么是神经网络？

神经网络包括 生物神经网络 和 人工神经网络。

生物神经网络，一般指生物的大脑神经元、细胞、触点等组成的网络，用于产生生物的意识、帮助生物进行思考和行动。
人工神经网络(Artificial Neural Networks，简写为ANN)也简称为神经网络，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

2. BP神经网络理论基础

BP (Back Propagation) 神经网络是1986年由 Rumelhart 和 McClelland 为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是应用最广泛的神经网络。

2.1 感知器（Perceptron）网络

感知器（Perceptron）网络是早期仿生学研究的成果，在1950s由 Frank Rosenblatt 第一次引入，是一种神经网络模型。

人眼睛的视网膜由排成矩阵的光传感元件组成，这些传感元件的输出连接到一些神经元。当输入达到一定水平或者有一定类型的输入产生时，神经元就给出输出。

感知器的基本思想就在于此，即当输入的活动超过一定的内部阈值时，神经元被激活，当输入具有一定的特点时，出发速率也增加。

感知器——BP神经网络中的单个节点

由输入项、权重、偏置、激活函数、输出组成。
输入节点： $x_1，x_2，x_3，...，x_i$
权重： $w_1，w_2，w_3，...，w_i$
偏置： $b$
激活函数： $f$
输出节点： $o u t p u t$

在这里插入图片描述

^{▲ 感知器组成}

2.2 BP神经网络的结构与传播规则

BP神经网络是一种典型的非线性算法。

BP神经网络由 输入层、隐含层（也称中间层）和 输出层 构成，其中隐含层有一层或者多层。每一层可以有若干个节点。层与层之间节点的连接状态通过权重来体现。

只有一个隐含层：传统的浅层神经网络；有多个隐含层：深度学习的神经网络。

在这里插入图片描述

^{▲ 典型BP神经网络的结构}

BP神经网络的核心步骤如下。其中，实线代表正向传播，虚线代表反向传播。

在这里插入图片描述

^{▲ BP神经网络的核心步骤}

正向传播
数据（信息、信号）从输入端输入后，沿着网络的指向，乘以对应的权重后再加和，再将结果作为输入在激活函数中计算，将计算的结果作为输入传递给下一个节点。依次计算，直到得到最终结果。
通过每一层的感知器，层层计算，得到输出，每个节点的输出作为下一个节点的输入。这个过程就是正向传播。

^{▲ 感知器}

反向传播
将输出的结果与期望的输出结果进行比较，将比较产生的误差利用网络进行反向传播，本质是一个“负反馈”的过程。
通过多次迭代，不断地对网络上的各个节点间的权重进行调整（更新），权重的调整（更新）采用梯度下降法。
sigmoid 函数
$\delta (x)=\frac{1}{1+e^{-x}}$
特点： $\frac{d\delta (x)}{dx}=[1-\delta (x)]\cdot\delta (x)$

^{▲ sigmoid 函数图像}

为了简单起见，本文涉及的激活函数均为 sigmoid函数。

从机器学习的角度来看，我们的任务就是：给定了一组数据集，其中包含了输入数据 $x$ 和输出的真实结果 $y$ ，如何寻找一组最佳的神经网络参数，使得网络计算得到的推测值 $\hat y$ 能够与真实值 $y$ 吻合程度最高?

2.3 梯度下降学习法

在正向传播的过程中，有一个 与期望的结果比较是否满意 的环节，在这个环节中实际的输出结果与期望的输出结果之间就会产生一个误差，为了减小这个误差，这也就转换为了一个优化过程，对于任何优化问题，总是会有一个目标函数 (objective function)，这个目标函数就是 损失函数（Loss function）。

$Loss=\frac{1}{2}\sum_{i=1}^n(y_i-\hat y_i)^2=\frac{1}{2}\sum_{i=1}[y_i-(wx_i+b)]^2$

为了让实际的输出结果与期望的输出结果之间的误差最小，就要寻找这个函数的最小值。
在这里插入图片描述

^{▲ BP神经网络的核心步骤}

通过迭代的方法寻找函数最小值

解析解：通过严格的公示推倒计算，给出的方程的精确解，任意精度下满足方程。
数值解：在一定条件下，通过某种近似计算得到的解，能够在给定的精度下满足方程。
迭代的方法寻找函数最小值就是通过 梯度下降 + 迭代 的方式寻找数值解。

在这里插入图片描述

^{▲ 迭代示意图}

迭代的方法一般都要经过多次，因为函数最小值的寻找可能要经过多次迭代，而在每一次的迭代中，各层节点之间的权重也将不断地迭代更新。
$W_{(t+1)}=W_{(t)}-\eta \frac{\partial Loss}{\partial w}+\alpha [W_{(t)}-W_{(t-1)}]$

$\eta \frac{\partial Loss}{\partial w}$ ：调整量；
$\alpha [W_{(t)}-W_{(t-1)}]$ 平滑项。

这样每一次迭代就会产生一次权重更新，之后将更新的权重与训练样本进行正向传播，如果得到的结果不满意，则进行反向传播，继续迭代。如此往复，直到得到满意的结果为止。

梯度下降学习法，有些像高山滑雪运动员总是在寻找坡度最大的地段向下滑行。当他处于A点位置时，沿最大坡度路线下降，达到局部极小点，则停止滑行；如果他是从B点开始向下滑行，则他最终将达到全局最小点。
在这里插入图片描述

^{▲ 误差函数梯度下降示意图}

BP神经网络反向传播为什么选择梯度下降法？

梯度下降法是训练神经网络和线性分类器的一种普遍方法。斜率是函数的导数。

在实际上， $x$ 可能不是一个标量，而是一个矢量。参考多元函数的知识，梯度就是偏导数组成的矢量。梯度上的每个元素都会指明函数在该点处各个方向的斜率，因此梯度指向函数变化最快的方向。即指向变大最快的方向和变小最快的方向，对应正梯度和负梯度。
$\frac{dy}{dx}=\lim_{\Delta x\to0}\frac{\Delta y}{\Delta x}$

很多深度学习其实都是在计算梯度，然后通过梯度进行迭代，更新参数向量。

在这里插入图片描述

^{▲ 导数几何意义}

2.4 学习算法的改进

引入动量项
$W_{(t+1)}=W_{(t)}-\eta[(1-\alpha ) \frac{\partial Loss}{\partial w_{(t)}}+\alpha \frac{\partial Loss}{\partial w_{(t-1)}}]$
$\eta>0$ ，为学习率； $\alpha$ 为动量因子， $0\leq \alpha <1$
变步长法
学习率 $\eta$ 不好选择，若选得太小，则收敛太慢；若选得太大，则有可能修正过头，导致振荡甚至发散。因此，可以采用变步长法进行改进。
$W_{(t+1)}=W_{(t)}-\eta (t) \frac{\partial Loss}{\partial w}\\[2ex] \eta (t)=2^{\lambda} \eta (t-1)\\[2ex] \lambda =sgn[ \frac{\partial Loss}{\partial w_{(t)}}\cdot \frac{\partial Loss}{\partial w_{(t-1)}}]$

当连续两次迭代其梯度方向相同时，表明下降太慢，这时可使步长加倍；当连续两次迭代其梯度方向相反时，表明下降过头，这时可使步长减半。

引入动量项与变步长法结合
$W_{(t+1)}=W_{(t)}-\eta[(1-\alpha ) \frac{\partial Loss}{\partial w_{(t)}}+\alpha \frac{\partial Loss}{\partial w_{(t-1)}}]\\[2ex] \eta (t)=2^{\lambda} \eta (t-1)\\[2ex] \lambda =sgn[ \frac{\partial Loss}{\partial w_{(t)}}\cdot \frac{\partial Loss}{\partial w_{(t-1)}}]$

2.5 BP神经网络的应用

BP神经网络应用的领域
BP神经网络被广泛应用于多个研究领域领，如环境、生物、医学、气象、天文、地理、经济学、管理学、工业、统计学、计算机、移动通信、航天、信息技术、自动化、能源、新材料、海洋等领域。
BP神经网络应用的主要方面
预测：电力运行负荷、血红蛋白浓度、房价、股市、水资源需求、风速、地质灾害等。
评价：城市安全、河流健康、教学质量、网络安全、水环境、生态风险、灾害损失等。
图像处理：图像降噪、图像分类、图像复原、图像压缩、图像校正、图像分割、图像加密等。
仿真：移动机器人避障仿真、物流交通仿真、无人机姿态自适应仿真、工业控制仿真等。

3. 9行代码实现BP神经网络

代码来源于github：https://github.com/miloharper/simple-neural-network

from numpy import exp, array, random, dot 
#从numpy库中调用exp(指数函数）、array(数组〉、random（随机函数)、dot(矩阵相乘函数)。
training_set_inputs = array([[0, 0, 1], [1, 1, 1], [1, 0, 1], [0, 1, 1]])
#bp神经网络训练部分的输入。
training_set_outputs = array([[0, 1, 1, 0]]).T
#bp神经网络训练部分的输出，.T表示矩阵转置。
random.seed(1)
#使用随机函数生成随机数，使用seed函数能够确保每次生成的随机数一致。
synaptic_weights = 2 * random.random((3, 1)) - 1
#生成一个随机数组，数组格式为3行1列，用来存储初始权重。
for iteration in range(10000):
    output = 1 / (1 + exp(-(dot(training_set_inputs, synaptic_weights))))
    #使用for语句循环10000次，将训练集的输入和权重采用dot进行矩阵相乘，将相乘得到的结果输入到sigmoid函数,然后将得到的结果赋值给output。
    synaptic_weights += dot(training_set_inputs.T, (training_set_outputs - output) * output * (1 - output))
    #权重的i调整采用“误差加权导数""公式。
print (1 / (1 + exp(-(dot(array([1, 0, 0]), synaptic_weights)))))
#synaptic_weights是调整之后的最终权重，数组（矩阵〉[1,0，0]与这个权重矩阵通过dot函数进行相乘，将相乘的结果作为输入引入到sigmoid函数，得到最终的结果。

运行结果：
在这里插入图片描述

4. 总结

BP神经网络传播过程包括正向传播和反向传播，其中反向传播本质上是 “负反馈” 。这一点就类似于控制里面的闭环系统，通过反馈，利用偏差纠正偏差，从而达到满意的输出效果；
对于误差的处理，利用了 梯度下降法+多次迭代 的方式，寻找最小的误差。在此过程中，每进行一次迭代，不同层节点之间的权重就会发生一次更新。正因为权重的动态更新，每一次正向传播所得到的误差也在动态更新，直至得到期望的输出效果；
原理的掌握是基础，代码的实现是关键。文末9行代码实现的BP神经网络，用简洁的代码反映了BP神经网络的原理，是一种单神经网络（simple-neural-network），如果要实现多神经网络，可能就很复杂了。