BP 反向传播算法原理学习
学习神经网络涉及到梯度消失、爆炸这块,搜寻一些资料加上个人理解,整理如下,以备后期复习。如能得到斧正,不胜感激!
变量定义
关于这里的推导我是这样理解的:
与 都有直接的运算关系,求损失函数对每层的具体某个权重偏导数,就可以直接通过
这样的链式法则求得。这个偏导数相对好求(是由l-1层的输出 a 与 l层的权重 线性加权 得到 Z),而 则需要从最后一层往前一层传递,逐层计算。为什么呢?接着看下面
为了与公式中保持一致,将图中的序号变换一下:
参数更新算法:
ps:本人用Typora编辑的,图片到此处怎么这幅德行,服了自己的编排能力了!
reference: