两种反向传播理解思路的统一

最新推荐文章于 2021-05-18 22:28:09 发布

dawningblue

最新推荐文章于 2021-05-18 22:28:09 发布

阅读量394

点赞数 1

分类专栏：深度学习机器学习文章标签：反向传播

本文链接：https://blog.csdn.net/dawningblue/article/details/89022984

版权

机器学习同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

深度学习

10 篇文章 0 订阅

订阅专栏

在我学习反向传播算法的时候，我接触了两种不同类型的阐述方式，一种是Michael Nielsen和Andrew Ng的（以下简称N2），他们的推导过程几乎一样。另一种是CS231n中基于链式法则的。这两个虽然我都明白，但是总觉得好像差别有点大，或者说既然他们说的是一个东西，那么肯定能在某一种层次上它们说的能统一在一起。为了寻找它们的统一，下面是我的一些思考。

先从“反向传播”这个名字说起

“反向传播”这个名字我觉得就起的相当不好。容易让人望文生义。接触机器学习这么长时间，反反复复的碰到反向传播，到今天已然觉得名字啥的不重要了，我们学习反向传播学习的是一种求梯度思想方法。我们想求解一个函数对于其中任何一个自变量的梯度，当这个函数的表达式非常的复杂的时候（多层嵌套，多个变元），如何简单的进行求解，“反向传播”这个名词想表达的是这样一个东西。
我猜测之所以会起“反向传播”这个名字，可能是想和“前向传播”这个名字对应起来。而‘前向传播’说的啥？前向传播的本质是当自变量值确定的时候，计算整个函数表达式的值（计算个表达式的值还搞得这么故弄玄虚）。而“反向传播”的本质是求函数的梯度，这两除了名字上形成对仗关系以外没啥别的关系。

反向传播，传播的是啥

好吧，我们假定“反向传播”不是故弄玄虚，而真的是在神经网络结构，逆着“前向传播”的方向传播了点东西，那么这个东西是什么？是“误差”还是“梯度”？
这个问题其实也没那么重要，主要看你哪种图形为基准。如果你是以计算图为基准的话，那么传播的是“梯度”，如果你是以多层感知机为基准的话，那么传播的就是误差。
说道这里我觉得“误差”这个说法不严谨，正确来说这里的误差并不是真正意义上的误差（真值和计算值之间的距离），其实这里的误差，准确的来说是“误差的敏感程度”。
这里Michael Nielsen在他那本深度学习中费了一些笔墨解释这个事情，还拿出了小精灵说事，但是其实他就想说，“梯度体现了误差的敏感程度”，“在这个算法里，我们用误差来代指误差敏感度”。所以本质上来说反向传播的实体是梯度啦。

我们思考问题的时候到底是用“计算图”模型还是用“多层感知机”模型

我们知道反向传播的理论基础就是链式求导法则。如果从纯数学的角度上来看，对我们某一个函数使用链式法则，很自然的就以这个函数表达式的计算过程图形化，这个就是计算图模型。而多层感知机本质上也是一种计算图，只是它为了突出神经元的结果，或者说为了模拟生物神经结构而形成的一种特殊的计算图，可以把神经元看成包含两步运算节点（第一步是计算输入，第二步是计算激励），而如果我们利用计算图模型，我们在一个节点上只会赋予一种操作。
而且我们利用计算图的时候，我们是以损失函数为基准的，直接将损失函数的完整形式计算图化。而多层感知机模型表示的仅仅是hypothesis，相对于损失函数，它的缺少一个真值和预测值求差的一步。这就是为什么Nielsen以及Ng的教程里，第一步都是先求error。
如果“多层感知机”模型加上求error的这一步本质上它和计算图模型是一样的。

那么这两种理解思路能否统一呢？

关于我一开始的疑问——如何将CS231n和N2统一起来——我在花书中并没有找到直接的答案。但是这两中方法书上都介绍了，它是以这样一个方式来组织编排的：

先给了计算图模型——这个是辅助我们思考的工具
介绍了链式法则的集中形式——标量形式、矩阵形式、张量形式
给出了第一版BP算法，它其实就是利用动态规划的方法实现链式法则。之所以能够利用动态规划来实现计算是因为链式法则本身具有这样一种结构——就是某一个自变量上的梯度，只和它的本地梯度与上游传递下来的梯度这两个因素有关（等于这两个部分之积）——这个洞见在CS231n上解释的非常清楚。当然这个版本的算法也做了一些简化假设，就是认为，最后的输出结果是一个标量，中间产生的结果也是标量，全程标量。
之后在多层感知机的框架下再次给出了一版BP算法（可以看成上述形式在多层感知机模型下的特化）
最后给出了BP的一般形式。我觉得这个一般形式就是在第一版的基础上将原来的标量换成张量，而且还引入了一些get_operation()，get_omsumers()这样的操作，显得更像一个计算机算法了。

通过上述的分析，如果非要把这N2和CS231n的两种思路统一起来的话，那就基于多层感知机框架的BP算法是基于链式法则BP算法的一种特化形式（因为MLP就是一种特殊的计算图嘛），没了。