梯度下降法
梯度下降法的更新公式:
梯度下降法的变式
1.SGD
随机梯度下降法是梯度下降法的一个小变形,就是每次使用一批(batch)数据进行梯度的计算,而不是计算全部的数据的梯度,因为现在深度学习使用的数据量都特别的大,所以每次计算所有的梯度都是不现实的,这样会导致运算时间过长,同时每次都计算全部的梯度还失去了一些随机性,容易引入一些局部误差,所以使用随机梯度下降法可能每次都不是朝着真正的最小的方向,但是这样反而容易跳出局部极小点。
2.Momentum
第二种优化方法就是在随机梯度下降的同事,增加动量(Momentum)。这来自于物理中的概念,可以想象 损失函数是一个山谷,一个球从山谷滑下来,在一个平坦的地势,球的滑动速度就会慢下来,可能会陷入一些鞍点或者局部极小值点,如下图所示。
这时候给它增加动量就可以让它从高处滑落的势能转换为平地的动能,相当于