回顾一下之前的优化算法:
在动量法中,我们用到指数加权移动平均来使得自变量的更新方向更加一致,从而降低发散的问题。
(一)AdaGrad算法
AdaGrad算法会使用一个小批量随机梯度gt按元素平方的累加变量st。在时间步0,AdaGrad将s0中每个元素初始化为0。在时间步t,首先将小批量随机梯度gt按元素平方后累加到变量st:
其中⊙是按元素相乘
如果目标函数有关自变量中某个元素的偏导数一直都较大,那么该元素的学习率将下降较快;反之,如果目标函数有关自变量中某个元素的偏导数一直都较小,那么该元素的学习率将下降较慢。
当学习率在迭代早期降得较快且当前解依然不佳时,AdaGrad算法在迭代后期由于学习率过小,可能较难找到一个有用的解。
使用AdaGrad算法时,自变量中每个元素的学习率在迭代过程中一直在降低(或不变)。
(二)RMSProp算法
不同于AdaGrad算法里状态变量st是截至时间步t所有小批量随机梯度gt按元素平方和,RMSProp算法将这些梯度按元素平方做指数加权移动平均。
因为RMSProp算法的状态变量st是对平方项gt⊙gt的指数加权移动平均,所以可以看作是最近1/(1−γ)个时间步的小批量随机梯度平方项的加权平均。如此一来,自变量每个元素的学习率在迭代过程中就不再一直降低(或不变)。
(三)AdaDelta算法
同RMSProp算法一样计算:
与RMSProp算法不同的是,AdaDelta算法还维护一个额外的状态变量Δxt,其元素同样在时间步0时被初始化为0。我们使用Δxt−1来计算自变量的变化量:
最后,我们使用Δxt来记录自变量变化量g′t按元素平方的指数加权移动平均:
AdaDelta算法没有学习率超参数,它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。
(四)Adam算法
Adam算法使用了动量变量vt和RMSProp算法中小批量随机梯度按元素平方的指数加权移动平均变量st,并在时间步0将它们中每个元素初始化为0。
时间步tt的动量变量vt即小批量随机梯度gt的指数加权移动平均:
将小批量随机梯度按元素平方后的项gt⊙gt做指数加权移动平均得到st:
在Adam算法中,我们对变量vt和st均作偏差修正:
接下来,Adam算法使用以上偏差修正后的变量vt和st,将模型参数中每个元素的学习率通过按元素运算重新调整:
Adam算法在RMSProp算法的基础上对小批量随机梯度也做了指数加权移动平均。
Adam算法使用了偏差修正。