我们在计算参数时,使用梯度下降方法,为了很好的将梯度下降法应用到deep learning,我们使用反向传播算法。我们使用反向传播算法计算每个参数的更新量,然后使用梯度下降法更新参数值。
为了计算每个参数的更新量,我们需要计算每个参数的梯度,在求导数的时候,需要注意的是链式法则,如下图所示:
在计算损失函数时,我们每次只需要计算每个样本的损失函数,然后将这些样本的损失函数相加即可得到总的损失函数,在计算参数的梯度时,我们可以只计算每个样本对应的该参数的梯度,然后将所有样本的得到的梯度相加,即可得到该参数的梯度。如下图所示。
在反向传播算法中,我们将其分为两个部分,分别为前向传播和反向反馈。
前向传播梯度的计算结果如下图所示:
我们可以看到在前向传播中,参数的梯度就是其对应的输入。具体的,如下面的实例所示
接下来我们来分析反向反馈
要计算C对z的偏导,我们可以首先计算C对a的偏导,然后计算a对z的偏导,然后C对a的偏导又可以由其他式子表示,如果在a后面有其他神经元,那我们就需要一直迭代直到迭代到输出层,所以我们每次在反向反馈中,都是从输出层反向迭代,一直迭代我们当前计算的参数的偏导为止。在这里,我们假设已经到了输出层,则C对z的偏导如下图所示:
我们从下图看看,从输出层到参数之间的神经元是如何影响参数的值的。
我们看一个完整的图,看从输出层到当前参数,怎么迭代的计算参数的梯度值,如下图所示
利用简单的形式,展示这种迭代计算:
对反向传播算法进行总结,就是前向传播和反向传递的结果相乘,得到参数的梯度值
在keras的hello world中,有一个东西值得注意,就是mini-batch 和随机梯度下降。
mini-batch:在每次更新参数时都是选择一小批样本一起更新参数。对mini-batch的形象化解释如下图所示(要注意epoch和batch-size的关系)。
随机梯度下降:每次更新参数时都是选择一个样本更新参数。
mini-batch与随机梯度下降相比有如下优点:
1.mini-batch更加稳定,每次使用多个样本同时更新参数,减少了随机性,所以结果更加稳定。通常来说batch-size越来其结果越稳定,但是当batch-size太大时,可能导致很糟糕的结果。
2.mini-batch计算速度更快,因为每次选择多个样本依次更新参数,所以这些样本的计算可以使用矩阵操作,将这些样本组成一个矩阵,一次性计算完成。
mini-batch的矩阵操作和随机梯度下降的样本计算如下图所示
mini-batch也有一些缺点,当设置很大的batch-size时,可能导致很糟糕的结果,可能导致进入鞍点等点,从而难以得到参数的最优值。但是随机梯度下降不同,即使其进入鞍点等点,因为它每次只使用一个样本更新参数,所以有更大的随机性,在下次迭代的时候更大可能性可以从鞍点中跳出来。