前言:在学习一段时间神经网络后,发现自己对神经网络的反向传播还是有点问题,在反过来复习吧,前向传播没有什么费劲的地方,这里就不会过多的阐述。
1、单层的反向传播
一步步来看,先看看简单的情况,单层的反向传播是理解多层神经网络的基础。
基础:梯度与梯度下降算法,前面有讲解过,这里直接给出结论。
从这上面看出,这里是以平方为误差来计算的,的导数为,则梯度的负方向为。故直接带到w的方程中。
W的更新状态方程:
2、多层的反向传播
3、 推导过程
这里的推导参考一个博客大牛的,由于公式较多,直接复制过来啦。
计算到输出层第L层对应的即为前向传播算法计算出来的输出:
我们期望最小化下式:
首先是输出层第L层。注意到输出层的W,b满足下式:
求解W,bW,b的梯度:
我们可以把公共的部分即对先算出来,记为:
根据上式我们可以很方便的计算出第L层的的梯度如下:
这其实和上面手写的例子结构很类似了。
假设第L+1层的已经求出来了,那么我们如何求出第L层的呢?我们注意到:
而和的关系其实很容易找出:(就是第L层输出前进行激活函数的值)
我们得到: