反向传播算法

最新推荐文章于 2022-12-29 16:36:59 发布

Ein027

最新推荐文章于 2022-12-29 16:36:59 发布

阅读量594

点赞数

分类专栏： ML 文章标签：机器学习统计学 cs229

本文链接：https://blog.csdn.net/u011460059/article/details/62046458

版权

ML 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

这篇博文尚未完成，暂时只做记录用，只有我自己看的懂，有时间继续完善

Logistic分类（二，多）都涉及到求解参数，他们用的方法是损失函数对参数求导，并使用梯度下降求取损失函数最小值对应的参数，这种是误差**正向传播**，参数的求解还是用损失函数对参数求导，但是在神经网络中，如此多的节点求导带来巨大的计算冗余，于是产生了反向传递的方法。

首先对第 k 层第 j 个神经元关注这样一个值。定义：
这里写图片描述
(V就是Z，E就是J)
根据求导链式法则，有：
将 [3.2] 等号右侧的第二项展开：

结合定义 [3.1] ，有：

可见有了就能计算E对任一权重w的偏导数。接下来的问题就是如何计算。
我们以求e=(a+b)*(b+1)的偏导为例。它的复合关系画出图可以表示如下：
在图中，引入了中间变量c,d。在图中，引入了中间变量c,d。为了求出a=2, b=1时，e的梯度，我们可以先利用偏导数的定义求出不同层之间相邻节点的偏导关系，如下图所示。利用链式法则我们知道：利用链式法则我们知道：以及。链式法则在上图中的意义是什么呢？其实不难发现，的值等于从a到e的路径上的偏导值的乘积，而的值等于从b到e的路径1(b-c-e)上的偏导值的乘积加上路径2(b-d-e)上的偏导值的乘积。也就是说，对于上层节点p和下层节点q，要求得，需要找到从q节点到p节点的所有路径，并且对每条路径，求得该路径上的所有偏导数之乘积，然后将所有路径的 “乘积” 累加起来才能得到的值。大家也许已经注意到，这样做是十分冗余的，因为很多路径被重复访问了。比如上图中，a-c-e和b-c-e就都走了路径c-e。对于权值动则数万的深度模型中的神经网络，这样的冗余所导致的计算量是相当大的。

减少计算量，在神经网络这样大量节点偏导计算中显得尤为重要

同样是利用链式法则，BP算法则机智地避开了这种冗余，它对于每一个路径只访问一次就能求顶点对所有下层节点的偏导值。正如反向传播(BP)算法的名字说的那样，BP算法是反向(自上往下)来寻找路径的。从最上层的节点e开始，初始值为1，以层为单位进行处理。对于e的下一层的所有子节点，将1乘以e到某个节点路径上的偏导值，并将结果“堆放”在该子节点中。等e所在的层按照这样传播完毕后，第二层的每一个节点都“堆放”些值，然后我们针对每个节点，把它里面所有“堆放”的值求和，就得到了顶点e对该节点的偏导。然后将这些第二层的节点各自作为起始顶点，初始值设为顶点e对它们的偏导值，以”层”为单位重复上述传播过程，即可求出顶点e对每一层节点的偏导数。以上图为例，节点c接受e发送的1*2并堆放起来，节点d接受e发送的1*3并堆放起来，至此第二层完毕，求出各节点总堆放量并继续向下一层发送。节点c向a发送2*1并对堆放起来，节点c向b发送2*1并堆放起来，节点d向b发送3*1并堆放起来，至此第三层完毕，节点a堆放起来的量为2，节点b堆放起来的量为2*1+3*1=5, 即顶点e对b的偏导数为5.举个不太恰当的例子，如果把上图中的箭头表示欠钱的关系，即c→e表示e欠c的钱。以a, b为例，直接计算e对它们俩的偏导相当于a, b各自去讨薪。a向c讨薪，c说e欠我钱，你向他要。于是a又跨过c去找e。b先向c讨薪，同样又转向e，b又向d讨薪，再次转向e。可以看到，追款之路，充满艰辛，而且还有重复，即a, b 都从c转向e。而BP算法就是主动还款。e把所欠之钱还给c，d。c，d收到钱，乐呵地把钱转发给了a，b，皆大欢喜。

Ein027

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
反向传播算法

这篇博文尚未完成，暂时只做记录用，只有我自己看的懂，有时间继续完善Logistic分类（二，多）都涉及到求解参数，他们用的方法是损失函数对参数求导，并使用梯度下降求取损失函数最小值对应的参数，这种是误差**正向传播**，参数的求解还是用损失函数对参数求导，但是在神经网络中，如此多的节点求导带来巨大的计算冗余，于是产生了反向传递的方法。首先对第 k 层第 j 个神经元关注这样一个值。定义： (
复制链接

扫一扫