机器学习入门：第十三章 BP神经网络

最新推荐文章于 2023-09-21 10:05:13 发布

go2coding

最新推荐文章于 2023-09-21 10:05:13 发布

阅读量488

点赞数

分类专栏：机器学习入门文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40425640/article/details/124188427

版权

机器学习入门专栏收录该内容

29 篇文章 18 订阅

订阅专栏

本文深入探讨了神经网络的学习机制，从简单的感知器模型及其学习算法开始，逐步过渡到反向传播算法，即BP算法。感知器主要用于分类，而BP算法解决了多层前馈网络的权重优化问题，适用于更复杂的任务。在BP算法中，通过梯度下降法修正权值，以最小化误差，实现网络的训练和学习。整个过程涉及正向传播和反向传播两个阶段，最终达到期望的输出。

摘要由CSDN通过智能技术生成

学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中，学习算法的研究有着十分重要的地位。目前，人们所提出的神经网络模型都是和学习算法相应的。所以，有时人们并不去祈求对模型和算法进行严格的定义或区分。有的模型可以有多种算法。而有的算法可能可用于多种模型。不过，有时人们也称算法为模型。

自从40年代Hebb提出的学习规则以来，人们相继提出了各种各样的学习算法。其中以在1986年Rumelhart等提出的误差反向传播法，即BP(error BackPropagation)法影响最为广泛。直到今天，BP算法仍然是自动控制上最重要、应用最多的有效算法。

神经网络的学习机理和机构

在神经网络中，对外部环境提供的模式样本进行学习训练，并能存储这种模式，则称为感知器；对外部环境有适应能力，能自动提取外部环境变化特征，则称为认知器。
神经网络在学习中，一般分为有教师和无教师学习两种。感知器采用有教师信号进行学习，而认知器则采用无教师信号学习的。在主要神经网络如BP网络，Hopfield网络，ART网络和Kohonen网络中；BP网络和Hopfield网络是需要教师信号才能进行学习的；而ART网络和 Kohonen网络则无需教师信号就可以学习。所谓教师信号，就是在神经网络学习中由外部提供的模式样本信号。

感知器的学习结构

感知器的学习是神经网络最典型的学习。
目前，在控制上应用的是多层前馈网络，这是一种感知器模型，学习算法是BP法，故是有教师学习算法。
一个有教师的学习系统可以用图1-7表示。这种学习系统分成三个部分：输入部，训练部和输出部。

在这里插入图片描述

图神经网络学习系统框图

输入部接收外来的输入样本X，由训练部进行网络的权系数W调整，然后由输出部输出结果。在这个过程中，期望的输出信号可以作为教师信号输入，由该教师信号与实际输出进行比较，产生的误差去控制修改权系数W。

学习机构可用图所示的结构表示。

在图中， $X_1,X_2,...,X_n$ ，是输入样本信号， $W_1,W_2,...,W_n$ 是权系数。输入样本信号 $X_i$ 可以取离散值“0”或“1”。输入样本信号通过权系数作用，在u产生输出结果 $\sum W_iX_i$ ，即有：

$u=\sum W_1X_1+ W_2X_2+...+ W_nX_n$

再把期望输出信号 $Y (t)$ 和u进行比较，从而产生误差信号e。即权值调整机构根据误差e去对学习系统的权系数进行修改，修改方向应使误差e变小，不断进行下去，使到误差e为零，这时实际输出值u和期望输出值完全一样，则学习过程结束。

在这里插入图片描述

神经网络的学习一般需要多次重复训练，使误差值逐渐向零趋近，最后到达零。则这时才会使输出与期望一致。故而神经网络的学习是消耗一定时期的，有的学习过程要重复很多次，甚至达万次级。原因在于神经网络的权系数W有很多分量 $W_1,W_2,..,W_n$ ；也即是一个多参数修改系统。系统的参数的调整就必定耗时耗量。目前，提高神经网络的学习速度，减少学习重复次数是十分重要的研究课题，也是实时控制中的关键问题。

感知器的学习算法

感知器是有单层计算单元的神经网络，由线性元件及阀值元件组成。感知器如图所示。

在这里插入图片描述

感知器结构

感知器的数学模型：

$Y=f(\sum_{i=1}^nW_iX_I-\theta)$

其中：f[.]是阶跃函数，并且有

$\begin{cases} 1, & u=\sum_{i=1}^nW_iX_i-\theta \ge0 \\ -1, & u=\sum_{i=1}^nW_iX_i-\theta \le0 \end{cases}$

θ是阀值。
感知器的最大作用就是可以对输入的样本分类，故它可作分类器，感知器对输入信号的分类如下：

$Y=\begin{cases} 1,&A类\\ -1,&B类 \end{cases}$

即是，当感知器的输出为1时，输入样本称为A类；输出为-1时，输入样本称为B类。从上可知感知器的分类边界是：

$\sum_{i=1}^nW_iX_I-\theta=0$

在输入样本只有两个分量X1，X2时，则有分类边界条件：

$\sum_{i=1}^2W_iX_I-\theta=0$

即

$W_1X_1+W_2X_2-\theta=0$

也可写成

$X_2=-\frac{W_1}{W_2}X_1+\frac{\theta}{W_2}$

这时的分类情况如图所示。

在这里插入图片描述

感知器的学习算法目的在于找寻恰当的权系数 $W=(W_1,W_2,...,W_n)$ ，使系统对一个特定的样本 $X=(X_1,X_2,...,X_n)$ 产生期望值d。

当X分类为A类时，期望值d＝1；
X为B类时，d=-1。

为了方便说明感知器学习算法，把阀值θ 并人权系数W中，同时，样本X也相应增加一个分量 $X_{n+1}$ 。故令：

$W_{n+1}=-\theta,X_{n+1}=1$

则感知器的输出可表示为：

$Y=f[\sum_{i=1}^{n+1}W_iX_i]$

感知器学习算法步骤如下：

对权系数W置初值
对权系数 $W=(W_1,W_2,...,W_{n+1})$ 的各个分量置一个较小的零随机值，但 $W_{n+1}=-\theta$ 。并记为 $W_1(0),W_2(0),...,W_n(0)$ ，同时有 $W_{n+1}=-\theta$ 。这里 $W_{i}(t)$ 为t时刻从第i个输入上的权系数， $i = 1, 2, . . ., n$ 。 $W_{n+1}(t)$ 为t时刻时的阀值。
输入一样本 $X=(X_1,X_2,...,X_{n+1})$ 以及它的期望输出d。
期望输出值d在样本的类属不同时取值不同。如果是A类，则取d＝1,如果是B类，则取-1。期望输出d也即是教师信号。
计算实际输出值Y

$Y(t)=F[\sum_{i=1}^{n+1}W_i(t)X_I]$

根据实际输出求误差e

$e = d - Y (t)$

用误差e去修改权系数

$W_i(t+1)=W_i(t)+\eta eX_i,i=1,2,...,n,n+1$

其中， $\eta$ 称为权重变化率， $0<\eta<1$
在式中，η的取值不能太大．如果1取值太大则会影响 $W_i(t)$ 的稳定；η的取值也不能太小，太小则会使 $W_i(t)$ 的求取过程收敛速度太慢。

当实际输出和期望值d相同时有：

$W_i(t+1)=W_i(t)$

转到第2点，一直执行到一切样本均稳定为止。

从上面式可知，感知器实质是一个分类器，它的这种分类是和二值逻辑相应的。因此，感知器可以用于实现逻辑函数。下面对感知器实现逻辑函数的情况作一些介绍。

例：用感知器实现逻辑函数 $X_1,X_2$ 的真值：


X1	0	1	1
X2	1	0	1
Y	1	1	1

以 $X_1\bigcup X_2=1$ 为A类，以 $X_1\bigcup X_2=0$ 为B类，则有方程组

$Y=\begin{cases} W_1\bullet 0 +W_2\bullet 0 -\theta \le 0\\ W_1\bullet 0 +W_2\bullet 1 -\theta \ge 0\\ W_1\bullet 1 +W_2\bullet 0 -\theta \ge 0\\ W_1\bullet 1 +W_2\bullet 1 -\theta \ge 0 \end{cases}$

即有：

$Y=\begin{cases} \theta \ge 0\\ W_2 \ge 0\\ W_1 \ge \theta\\ W_1 +W_2 \ge \theta \end{cases}$

从式有：$W_1 \ge \theta , W_2 \ge \theta $, 令$ W_1=1,W_2=2$ ，,则有 $\theta \le 1$ ：取 $\theta = 0.5$ 则有 $X_1+X_2-0.5=0$ ：,
分类情况如图所示。

在这里插入图片描述

神经网络学习的梯度算法

从感如器的学习算法可知，学习的目的是在于修改网络中的权系数，使到网络对于所输入的模式样本能正确分类。当学习结束时，也即神经网络能正确分类时，显然权系数就反映了同类输人模式样本的共同特征。换句话讲，权系数就是存储了的输人模式。由于权系数是分散存在的，故神经网络自然而然就有分布存储的特点。

前面的感知器的传递函数是阶跃函数，所以，它可以用作分类器。前面一节所讲的感知器学习算法因其传递函数的简单而存在局限性。

感知器学习算法相当简单，并且当函数线性可分时保证收敛。但它也存在问题：即函数不是线性可分时，则求不出结果；另外，不能推广到一般前馈网络中。

为了克服存在的问题，所以人们提出另一种算法——梯度算法(也即是LMS法)。

为了能实现梯度算法，故把神经元的激发函数改为可微分函数，例如Sigmoid函数，非对称Sigmoid函数为 $f(x)=\frac{1}{1+e^{-x}}$ ,对称Sigmoid函数f(X)= $f(x)=\frac{1-e^{-x}}{1+e^{-x}}$ ；而不采用阶跃函数。

对于给定的样本集 $X_i(I=1,2,...,n)$ ，梯度法的目的是寻找权系数W ，使得 $f[W\bullet X_i]$ 与期望输出 $Y_i$ 尽可能接近。

设误差e采用下式表示：

$e=\frac{1}{2}\sum_1^2(Y_i-\hat Y_i)^2$

其中， $Y_i=f[W*X_i$ 是对应第i个样本Xi 的实时输出
$Y_i$ 是对应第i个样本$X_i的期望输出。
要使误差e最小，可先求取e的梯度：

$grad_we=\frac{\partial e}{\partial W}=\sum_{k=1}^n\frac {\partial e_k}{\partial W}，其中 e_k=\frac{1}{2}(Y_k-\hat Y_k)^2$

令 $U_k=WX_k$ ,则有：

$\frac {\partial e_k}{\partial W}=\frac{\partial e_k}{\partial U_k}\bullet \frac{\partial U_k}{\partial W} = \frac{\partial e_k}{\partial \hat Y_k)}\bullet \frac{\partial \hat Y_k}{\partial U_k}\bullet X_k$

即有：

$e_k=\frac{1}{2}(Y_i-\hat Y_i)^2 \Rightarrow \frac {\partial e_k}{\partial \hat Y_i}=-(Y_i-\hat Y_i)$

$\hat Y_i=f(t)\Rightarrow \frac {\partial \hat Y_i}{\partial U_k}=f \prime (U_k)$

$\frac {\partial e_k}{\partial W}=-(Y_k- \hat Y_k)\bullet f \prime (U_k) \bullet X_k$

最后有按负梯度方向修改权系数W的修改规则：

$W_{k+1}=W_{k} + \mu \sum_{i=1}^n(Y_k- \hat Y_k)\bullet f \prime (U_k) \bullet X_k$

也可写成：

$W_{k+1}=W_K+\mu (-\frac{\partial e}{\partial W})|_{w=w_k}$

在上式(1—30)，式(1—31)中，μ 是权重变化率，它视情况不同而取值不同，一般取0-1之间的小数。很明显，梯度法比原来感知器的学习算法进了一大步。其关键在于两点：

神经元的传递函数采用连续的s型函数，而不是阶跃函数；
对权系数的修改采用误差的梯度去控制，而不是采用误差去控制。故而有更好的动态特能，即加强了收敛进程。

但是梯度法对于实际学习来说，仍然是感觉太慢；所以，这种算法仍然是不理想的。

反向传播学习的BP算法

反向传播算法也称BP算法。由于这种算法在本质上是一种神经网络学习的数学模型，所以，有时也称为BP模型。

BP算法是为了解决多层前向神经网络的权系数优化而提出来的；所以，BP算法也通常暗示着神经网络的拓扑结构是一种无反馈的多层前向网络。故而．有时也称无反馈多层前向网络为BP模型。

在这里，并不要求过于严格去争论和区分算法和模型两者的有关异同。感知机学习算法是一种单层网络的学习算法。在多层网络中．它只能改变最后权系数。因此，感知机学习算法不能用于多层神经网络的学习。1986年，Rumelhart提出了反向传播学习算法，即BP(backpropagation)算法。这种算法可以对网络中各层的权系数进行修正，故适用于多层网络的学习。BP算法是目前最广泛用的神经网络学习算法之一，在自动控制中是最有用的学习算法。

BP算法的原理

BP算法是用于前馈多层网络的学习算法，前馈多层网络的结构一般如图1—12所示:

在这里插入图片描述

它含有输人层、输出层以及处于输入输出层之间的中间层。中间层有单层或多层，由于它们和外界没有直接的联系，故也称为隐层。在隐层中的神经元也称隐单元。隐层虽然和外界不连接．但是，它们的状态则影响输入输出之间的关系。这也是说，改变隐层的权系数，可以改变整个多层神经网络的性能。

设有一个m层的神经网络，并在输入层加有样本X；设第k层的i神经元的输入总和表示为Ui k ，输出Xi k ；从第k—1层的第j个神经元到第k层的第i个神经元的权系数为Wij 各个神经元的激发函数为f，则各个变量的关系可用下面有关数学式表示：

$X_i^k=f(U_i^k),U_i^k=\sum_jW_{ij}X_j{k-1}$

反向传播算法分二步进行，即正向传播和反向传播。这两个过程的工作简述如下。

1．正向传播

输入的样本从输入层经过隐单元一层一层进行处理，通过所有的隐层之后，则传向输出层；在逐层处理的过程中，每一层神经元的状态只对下一层神经元的状态产生影响。在输出层把现行输出和期望输出进行比较，如果现行输出不等于期望输出，则进入反向传播过程。

2．反向传播

反向传播时，把误差信号按原来正向传播的通路反向传回，并对每个隐层的各个神经元的权系数进行修改，以望误差信号趋向最小。

BP算法的数学表达

BP算法实质是求取误差函数的最小值问题。这种算法采用非线性规划中的最速下降方法，按误差函数的负梯度方向修改权系数。

为了说明BP算法，首先定义误差函数e。取期望输出和实际输出之差的平方和为误差函数，则有：

$e=\frac{1}{2}\sum_i(X_i^m-Y_i)^2$

其中：是输出单元的期望值；它也在这里用作教师信号；
Xi m 是实际输出；因为第m层是输出层。

由于BP算法按误差函数e的负梯度方向修改权系数，故权系数 $W_{ij}$ 的修改量$\nabla W_{ij} $，和e

$\nabla W_{ij} \in - \frac{\partial e}{\partial W_{ij}}$

也可写成

$\nabla W_{ij} \in - \eta \frac{\partial e}{\partial W_{ij}}$

其中： $\eta$ 为学习速率，即步长。

很明显，根据BP算法原则，求 $\frac{\partial e}{\partial W_{ij}}$ 最关键的。下面求 $\frac{\partial e}{\partial W_{ij}}$ ；有

$\frac {\partial e_k}{\partial W_{ij}}=\frac{\partial e_k}{\partial U_i^k}\bullet \frac{\partial U_i^k}{\partial W_{ij}}$

由于

$\frac{\partial U_i^k}{\partial W_{ij}}=\frac{\partial \sum_iW_{il}X_j^{k-1}}{\partial W_{ij}}=X_j^{k-1}|_{i=j}$

故而

$\frac{\partial e}{\partial W_{ij}}=\frac{\partial e_k}{\partial U_i^k}\bullet X_j^{k-1}$

从而有

$\nabla W_{ij} = - \eta \frac{\partial e}{\partial W_{ij}} = -\eta \frac{\partial e}{\partial U_{i}^k}\bullet X_j^{k-1}$

令

$d_i^k=\frac{\partial e}{\partial U_i^k}=\frac{\partial e}{\partial X_i^k}\bullet \frac{\partial X}{\partial U_i^k}$

有

$\frac{\partial X}{\partial U_i^k}=f \prime (U_i^k)$

为了方便进行求导，取f为连续函数。一般取非线性连续函数，例如Sigmoid函数。当取f为非对称Sigmoid函数时，有：

$f(x)=\frac{1}{1+e^{-x}}$

$f\prime (x)=((1+e^{-x})^{-1})\prime = -1(1+e^{-x})^{-2}\bullet (-e^{-x})\\ =(1-\frac{1}{1+e^{-x}})\bullet \frac{1}{1+e^{-x}}\\ =f(x)\bullet (1-f(x))$

$f(U_i^k)=\frac{1}{1+exp^{-U_i^k}}$

则有： $f(U_i^k)\prime=f(U_i^k)\bullet (1-f(U_i^k))$
= $X_i^k \bullet (1-X_i^k) $ (1-45)

再考虑式中的偏微分项 $\frac{\partial e}{\partial X_i^k}$ ，有两种情况需考虑的：

如果k＝m，则是输出层，这时有Yi 是输出期望值，它是常数。从式 $e=\frac{1}{2}\sum_i(X_i^m-Y_i)^2$ 有

$\frac{\partial e}{\partial X_i^k}=\frac{\partial e}{\partial X_i^m}=(X_I^M-y_I)$

从而有 $d_i^m=X_i^m\bullet (1-X_i^m)(X_i^m-Y_i)$

如果 $\lt m$ ，则该层是隐层．这时应考虑上一层对它的作用，故有：

$\frac{\partial e}{\partial X_i^k}=\sum_l \frac{\partial e}{\partial U_l^{k+1}}\bullet \frac{\partial U_l^{k+1}}{\partial X_i^k}$

可知有：

$\frac{\partial e}{\partial U_l^{k+1}}=d_l^{k+1}$

可知有：

$\frac{\partial U_l^{k+1}}{\partial X_i^{k}}=\partial \frac{ \sum W_{ij} X_j^k}{\partial X_l^{k}}=W_{li}|_{j=i}$

故而有

$\frac{\partial e}{\partial X_i^{k}}=\sum_l W_{li} \bullet d_l^{k+1}$

最后有：

$d_i^k=X_i^k(1-X_i^k)\bullet \sum W_{li}\bullet d_l^{k+1}$

从上述过程可知：多层网络的训练方法是把一个样本加到输入层，并根据向前传播的规则 $X_I^K=F(U_i^k)$ 不断一层一层向输出层传递，最终在输出层可以得到输出 $X_i^m$ 。

把 $X_i^m$ 和期望输出 $Y_i$ 进行比较．如果两者不等，则产生误差信号e，接着则按下面公式反向传播修改权系数：

$\nabla W_{ij} = -\eta d_i^k \bullet X_j^{k-1}$

其中 $d_i^m=X_I^M\bullet (1-X_i^m)(X_i^m-Y_i),d_i^k=X_i^k(1-X_i^k)\bullet \sum_lW_{li}\bullet d_l{k+1}$ ，

上面公式中，求取本层 $d_i^k$ 时，要用到高一层的 $d_i^{k+1}$ ；可见，误差函数的求取是从输出层开始，到输入层的反向传播过程。在这个过程中不断进行递归求误差。

通过多个样本的反复训练，同时向误差渐渐减小的方向对权系数进行修正，以达最终消除误差。从上面公式也可以知道，如果网络的层数较多时，所用的计算量就相当可观，故而收敛速度不快。

为了加快收敛速度，一般考虑上一次的权系数，并以它作为本次修正的依据之一，故而有修正公式：

$\nabla W_{ij}(t+1) = -\eta d_i^k \bullet X_j^{k-1} + \alpha \nabla W_{ij}(t)$

其中：η 为学习速率，即步长，η ＝0.1-0.4左右
ɑ 为权系数修正常数，取0.7-0.9左右。

在上面，式(1—53)也称为一般化的Delta法则。对于没有隐层的神经网络，可取

$\nabla W_{ij} = -\eta (Y_i-X_j) \bullet X_i$

其中： $Y_i$ 为期望输出； $X_i$ 为输出层的实际输出； $X_i$ 为输入层的输入。

这显然是一种十分简单的情况，式(1-55)也称为简单Delta法则。

在实际应用中，只有一般化的Delta法则式(1-53)或式(1-54)才有意义。简单Delta法则式(1—55)只在理论推导上有用。

BP算法的执行步骤

在反向传播算法应用于前馈多层网络时，采用Sigmoid为激发面数时，可用下列步骤对网络的权系数 $W_{ij}$ 进行递归求取。注意对于每层有n个神经元的时候，即有 $i = 1, 2, . . ., n; j = 1, 2, . . ., n$ 。对于第k层的第i个神经元，则有n个权系数 $W_{i1},W_{i2},...,W_{in}$ ，另外取多—个 $W_{in+1}$ 用于表示阀值 $\theta_{i}$ ；并且在输入样本X时，取 $X=(X_1,X_2,...,X_n)$ 。

算法的执行的步骤如下：

1．对权系数置初值。

对各层的权系数置一个较小的非零随机数，但其中 $W_{i,n+1}=-\theta$ 。

2．输入一个样本 $X=(X_1,X_2,..,X_n)$ ，以及对应期望输出Y=(Y_1,Y_2,…,Y_n)。

3．计算各层的输出
对于第k层第i个神经元的输出 $X_i^k$ ，有：

$U_i^k=\sum_{j=1}^{n+1}W_{ij}X_J^{K-1},X_{n+1}^{k-1}=1,W_{t,n+1}=-\theta$

$X_i^k=f(U_i^k)$

4．求各层的学习误差d_i^m,对于输出层有k＝m，有

$d_i^m=X_i^m \bullet (1-X_i^m)(X_i^m-Y_i)$

对于其他各层，有

$d_i^k=X_i^k(1-X_i^k)\bullet \sum_i W_{li} \bullet d_l^{k+1}$

5．修正权系数Wij和阀值θ

用式(1-53)时有：

$W_{ij}(t+1)=W_{ij}(t) -\eta d_i^k \bullet X_j^{k-1}$

用式(1-54)时有：

$W_{ij}(t+1)=W_{ij}(t) -\eta d_i^k \bullet X_j^{k-1} + \alpha \nabla W_{ij}(t)$

其中：

$\nabla W_{ij}(t)=-\eta d_i^k \bullet X_j^{k-1} +\alpha \nabla W_{ij}(t)=W_{ij}(t) - W_{ij}(t-1)$

6．当求出了各层各个权系数之后，可按给定品质指标判别是否满足要求。如果满足要求，则算法结束；如果未满足要求，则返回(3)执行。

这个学习过程，对于任一给定的样本 $X_p=(X_{p1},X_{p2},...,X_{pn},1)$ 和期望输出 $Y_p=(Y_{p1},Y_{p2},...,Y_{pn})$ 都要执行，直到满足所有输入输出要求为止。

go2coding

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习入门：第十三章 BP神经网络

学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中，学习算法的研究有着十分重要的地位。目前，人们所提出的神经网络模型都是和学习算法相应的。所以，有时人们并不去祈求对模型和算法进行严格的定义或区分。有的模型可以有多种算法。而有的算法可能可用于多种模型。不过，有时人们也称算法为模型。自从40年代Hebb提出的学习规则以来，人们相继提出了各种各样的学习算法。其中以在1986年Rumelhart等提出的误差反向传播法，即BP(error BackPropagation)法影响最为广泛。直到今天，B
复制链接

扫一扫