深度学习之BP神经网络

最新推荐文章于 2024-07-27 00:32:18 发布

lanmengyiyu

最新推荐文章于 2024-07-27 00:32:18 发布

阅读量1.1w

点赞数 2

分类专栏：深度学习相关（cs231n）文章标签：神经网络深度学习算法

本文链接：https://blog.csdn.net/lanmengyiyu/article/details/53997832

版权

深度学习相关（cs231n）专栏收录该内容

49 篇文章 6 订阅

订阅专栏

深度学习之BP神经网络

BP（Back Propagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐层(hide layer)和输出层(output layer)。

这里写图片描述

BP神经元

这里写图片描述

第j个神经元的净输入值Sj为：
这里写图片描述
净输入通过传递函数（Transfer Function）f (·)后，便得到第j个神经元的输出：

式中f是单调上升函数，而且必须是有界函数，因为细胞传递的信号不可能无限增加，必有一最大值。

事实上，对于单个神经元而言，若忽视传递函数，其本质上就是LR算法。

反向传播

反向传输是BP神经网络的特点，故详细说明此部分。
1）误差函数
第p个样本的误差：
这里写图片描述
其中，tp为期望输出，yp为经过网络后的输出，有p个学习样本，m个输出节点。
全局误差：

此处不做具体的公式推导，改用较为直观的的方式解释，如下图：

情况一：
当误差对权值的偏导数大于零时，权值调整量为负，实际输出大于期望输出，权值向减少方向调整，使得实际输出与期望输出的差减少。
情况二：
当误差对权值的偏导数小于零时，权值调整量为正，实际输出小于期望输出，权值向增大方向调整，使得实际输出与期望输出的差减少。

BP神经网络优缺点

优点：
(1)网络实质上实现了一个从输入到输出的映射功能，而数学理论已证明它具有实现任何复杂非线性映射的功能。这使得它特别适合于求解内部机制复杂的问题；
(2)网络能通过学习带正确答案的实例集自动提取“合理的”求解规则，即具有自学习能力；
(3)网络具有一定的推广、概括能力。

问题：
(1) BP算法的学习速度很慢，其原因主要有：
① 由于BP算法本质上为梯度下降法，而它所要优化的目标函数又非常复杂，因此，必然会出现“锯齿形现象”，这使得BP算法低效；
② 存在麻痹现象，由于优化的目标函数很复杂，它必然会在神经元输出接近0或1的情况下，出现一些平坦区，在这些区域内，权值误差改变很小，使训练过程几乎停顿；
③ 为了使网络执行BP算法，不能用传统的一维搜索法求每次迭代的步长，而必须把步长的更新规则预先赋予网络，这种方法将引起算法低效。
(2) 网络训练失败的可能性较大，其原因有：
① 从数学角度看，BP算法为一种局部搜索的优化方法，但它要解决的问题为求解复杂非线性函数的全局极值，因此，算法很有可能陷入局部极值，使训练失败；
② 网络的逼近、推广能力同学习样本的典型性密切相关，而从问题中选取典型样本实例组成训练集是一个很困难的问题。
(3) 难以解决应用问题的实例规模和网络规模间的矛盾。这涉及到网络容量的可能性与可行性的关系问题，即学习复杂性问题；
(4) 网络结构的选择尚无一种统一而完整的理论指导，一般只能由经验选定。为此，有人称神经网络的结构选择为一种艺术。而网络的结构直接影响网络的逼近能力及推广性质。因此，应用中如何选择合适的网络结构是一个重要的问题；
(5) 新加入的样本要影响已学习成功的网络，而且刻画每个输入样本的特征的数目也必须相同；
(6) 网络的预测能力（也称泛化能力、推广能力）与训练能力（也称逼近能力、学习能力）的矛盾。一般情况下，训练能力差时，预测能力也差，并且一定程度上，随训练能力地提高，预测能力也提高。但这种趋势有一个极限，当达到此极限时，随训练能力的提高，预测能力反而下降，即出现所谓“过拟合”现象。此时，网络学习了过多的样本细节，而不能反映样本内含的规律。