反向传播(back-propagation,BP)
BP算法就是通过迭代优化网络的权值使得输出与输入之间的实际映射关系与所期望的映射关系一致,采用梯度下降算法通过调整各层权值求目标函数最小化。
由于采用Sigmoid函数作为神经元传递函数,不管网络结构多么复杂,总可以通过计算梯度来考察各个参数。这就是多层感知器反向传播算法的基本思想。
这是应用反向传播算法的网络结构,首先我们以这个3层神经元的网络为例子进行反向传播算法的公式推导。
为了便于描述给出下列记号:
根据以上的网络结构和标记,我们可以写出损失函数,这里使用的是平方损失:
我们的目标是损失函数最小化,通过一步步调整权重,使得经过每一个样本的调整之后,损失函数越来越小,则可以保证预测值逐步靠近真实值。
需要调整的损失函数的参数是w,完整公式表示是:
使用泰勒展开式将公式展开,注意因为这里不只一个参数,所以使用的是多元函数的泰勒展开式。展开到了一阶导数:
如果我们想要损失函数每次训练之后减小,只需要以下的式子为负值便好。
为了满足这个条件,只要令:
即可保证等式右端J的值小于上一次。
准备完成开始进行公式推导
1对于输出层
以下的公式推导中,有一项求导数结果为0,为了方便处理多次使用了复合函数求导。
2 对于隐含层:
多次使用了复合函数求导,而且利用了前面输出层的结果。与求导的权重无关的项,结果全部为0。
3 求激活函数的导数(这里是Sigmoid函数):
4 将求导后的函数代入,便得到了最后的结果: