[BP系列]-Learning representations by back-propagating errors

最新推荐文章于 2024-07-28 19:00:00 发布

Dream__Zh

最新推荐文章于 2024-07-28 19:00:00 发布

阅读量4.1k

点赞数 9

分类专栏：机器学习文献阅读记录文章标签：机器学习

本文链接：https://blog.csdn.net/Dream__Zh/article/details/78877849

版权

本文介绍了David Rumelhart等人1986年的论文，提出了反向传播（Back-propagation）学习方法，通过不断迭代调整神经网络的权值以最小化实际输出和期望输出的误差。这种方法使内部隐藏单元能表达任务关键特征，并解决了早期算法的局限。文中讨论了模型结构、总误差、反向传播算法和权值更新，同时也提到了面临的对称性问题和潜在的局部最小值挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Learning representations by back-propagating errors-[BP系列]

作者：David Everett Rumelhart, Geoffrey E. Hinton, Ronald J. Williams

DE Rumelhart, GE Hinton, RJ Williams于1986年发表了两篇关于Back-propagating的文章，参见1986a Learning representations by back-propagating errors以及1986b Learning internal representations by error propagation.

本文主要针对[1986a]进行分析和整理，不是全文的翻译，重在个人理解。同时，笔者在阅读中也产生了一些疑问，欢迎各位指正和探讨。

文章目录

Learning representations by back-propagating errors-[BP系列]

背景

此文章提出了一种新的学习过程，Back-propagation。该过程通过不断迭代调整神经网络连接的权值，从而最小化实际输出和期望输出(disired output)之间的误差。

[从统计的观点来看，应该是观测与模型输出之间的误差，需要注意的是，这里的期望并非统计意义上的期望]

结果显示，权值的调整使得那些既非输出亦非输出的内部隐藏单元，能够表达任务领域的重要特征，同时这些单元间的相互作用还能够捕获任务中的规律。创造新的有用特征的能力使得BP从更为早期的简单算法，如感知机收敛过程(perceptron-convergence procedure)，中脱颖而出。

在自组织神经网络的设计方面有很多尝试，目标便是寻找一个有效的突触调整准则，从而使任意初始的神经网络能够适用于某一特殊场景。任务由给定的输入状态向量和输出状态向量决定。如果输入与输出之间直接连接，那么权值的调整规则就会简单很多。学习过程变得越来越有趣，但是随着隐层的出现，也变得越来越困难。

在感知机中，输入与输出之间也存在“特征分析”的过程，但它们不是真正的隐层，因为输入连接由手动确定，因此它们的状态完全由输入决定，并没有学习表达的过程。[这一定义是否具有严格的界限？在发展的过程中，是否又有了新的含义？由输入决定的隐层状态能否由无监督学习进行表述？]

为了获得理想中的输入输出行为，学习过程必须决定什么情况下隐层单元被激活。这相当于确定这些单元代表了什么。在下面的内容中，我们给出了一个通用的目标，并阐释了相对简单的过程即可有效构建合适的内部表达。

模型

神经网络模型

一个学习过程最简单的形式由三部分组成：底层输入单元、中间的隐层单元、顶层输出单元。层内连接、由高向低的逆向连接均不被允许。信号的传递由下向上按照序列方式进行，而在每一层中，单元的状态为并行模式。 $l$ 层某神经元的输入是 $l - 1$ 层神经元的线性组合，而输出为经过激活函数后的结果。

$x_j = \sum_i y_i w_{ji}$
其中， $x_j$ 为本层第 $j$ 个单元的输入， $y_i$ 为上一层第 $i$ 个单元的输出， $w_{ji}$ 是单元 $i$ 到单元 $j$ 的连接权值。线性组合操作极大地简化了学习过程[why]。而本层第 $j$ 个单元的输出由 $y_j$ 表示，它是输入的非线性函数：
$y_j = \frac{1}{1+e^{-x_j}}$