BP神经网络的原理及推导

最新推荐文章于 2021-08-19 23:57:23 发布

JeemyJohn

最新推荐文章于 2021-08-19 23:57:23 发布

阅读量4.7k

点赞数 6

分类专栏：机器学习机器学习文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/u013709270/article/details/72716680

版权

机器学习同时被 2 个专栏收录

44 篇文章 7 订阅

订阅专栏

机器学习

41 篇文章 52 订阅

订阅专栏

首先什么是人工神经网络？简单来说就是将单个感知器作为一个神经网络节点，然后用此类节点组成一个层次网络结构，我们称此网络即为人工神经网络（本人自己的理解）。当网络的层次大于等于3层（输入层+隐藏层（大于等于1）+输出层）时，我们称之为多层人工神经网络。

1、神经单元的选择

那么我们应该使用什么样的感知器来作为神经网络节点呢？在上一篇文章我们介绍过感知器算法，但是直接使用的话会存在以下问题：

感知器训练法则中的输出:

这里写图片描述

由于sign函数是非连续函数，这使得它不可微，因而不能使用上面的梯度下降算法来最小化损失函数。

增量法则中的输出为:

这里写图片描述

每个输出都是输入的线性组合，这样当多个线性单元连接在一起后最终也只能得到输入的线性组合，这和只有一个感知器单元节点没有很大不同。

　　为了解决上面存在的问题，一方面，我们不能直接使用线性组合的方式直接输出，需要在输出的时候添加一个处理函数；另一方面，添加的处理函数一定要是可微的，这样我们才能使用梯度下降算法。

　　满足上面条件的函数非常的多，但是最经典的莫过于sigmoid函数，又称Logistic函数，此函数能够将 $(-\infty , \infty)$ 内的任意数压缩到(0,1)之间，因此这个函数又称为挤压函数。为了将此函数的输入更加规范化，我们在输入的线性组合中添加一个阀值，使得输入的线性组合以0为分界点。

sigmoid函数：

这里写图片描述

其函数曲线如下图所示:

这里写图片描述

此函数有个重要特性就是他的导数：

这里写图片描述

有了此特性在计算它的梯度下降时就简便了很多。另外还有双曲函数tanh也可以用来替代sigmoid函数，二者的曲线图比较类似：

这里写图片描述

2、BP反向传播算法（Back Propagation）

现在，我们可以用上面介绍的使用sigmoid函数的感知器来搭建一个多层神经网络，为简单起见，此处我们使用三层网络来分析。假设网络拓补下图所示：

这里写图片描述

网络的运行流程为：当输入一个样例后，获得该样例的特征向量，再根据权向量得到感知器的输入值，然后使用sigmoid函数计算出每个感知器的输出，再将此输出作为下一层感知器的输入，依次类推，直到输出层。

　　那么如何确定每个感知器的权向量呢？这时我们需要使用反向传播算法来逐步进行优化。在正式介绍反向传播算法之前，我们先继续进行分析。

　　在上一篇介绍感知器的文章中，为了得到权向量，我们通过最小化损失函数来不断调整权向量。此方法也适用于此处求解权向量，首先我们需要定义损失函数，由于网络的输出层有多个输出结点，我们需要将输出层每个输出结点的差值平方求和。于是得到每一个训练样例的损失函数为：（前面加个0.5方便后面求导使用）

这里写图片描述

在多层的神经网络中，误差曲面可能有多个局部极小值，这意味着使用梯度下降算法找到的可能是局部极小值，而不是全局最小值。
　　现在我们有了损失函数，这时可以根据损失函数来调整输出结点中的输入权向量，这类似感知器中的随机梯度下降算法，然后从后向前逐层调整权重，这就是反向传播算法的思想。

具有两层sigmoid单元的前馈网络的反向传播算法：

将网络中的所有权值随机初始化。
对每一个训练样例，执行如下操作：
- 根据实例的输入，从前向后依次计算，得到输出层每个单元的输出。然后从输出层开始反向计算每一层的每个单元的误差项。
- 对于输出层的每个单元k，计算它的误差项：

这里写图片描述

- 对于网络中每个隐藏单元h，计算它的误差项：

这里写图片描述

- 更新每个权值：

这里写图片描述

符号说明：

$x_{ji}$ ：结点i到结点j的输入，wji表示对应的权值。

$outputs$ ：表示输出层结点集合。

整个算法与delta法则的随机梯度下降算法类似，算法分析如下：

　　1）权值的更新方面，和delta法则类似，主要依靠学习速率，该权值对应的输入，以及单元的误差项。

　　2）对输出层单元，它的误差项是 $(t-o)$ 乘以sigmoid函数的导数 $o_k(1-o_k)$ ，这与delta法则的误差项有所不同，delta法则的误差项为(t-o)。

　　3）对于隐藏层单元，因为缺少直接的目标值来计算隐藏单元的误差，因此需要以间接的方式来计算隐藏层的误差项 $\delta_k$ 对受隐藏单元h影响的每一个单元的误差 $\delta_k$ 进行加权求和，每个误差 $\delta_k$ 权值为 $w_{kh}$ , $w_{kh}$ 就是隐藏单元h到输出单元k的权值。