我们前面的学习中,用gradient descent来更新参数,神经网络这一块也是类似的,难点在于我们的参数可能有很多维,为了有效地进行梯度下降,我们采用backpropagation。
backpropagation中的链式求导:
我们给一组xn,经过一系列的神经网络,我们会得到yn,以及我们有一个期望值y*n,我们求这两组之间的交叉熵。我们把LOSS Function定义为所有交叉熵的和,则Loss对某个参数的偏微分就是每一个交叉熵求偏微分后再求和。下面我们关注于每一个交叉熵如何对参数求偏微分。