Momentum:即前几次梯度也会参与运算。新梯度 = 原始梯度 和 之前的梯度的累加 的运算。前后梯度方向一致时,能够加速学习;前后方向不一致时,能够抑制震荡。
--------------------------------------------------------学习率和梯度有关-------------------------------------------------------------------------------
AdaGrad:自适应学习率,只需要设定一个全局的学习率,但是这并非是实际学习速率,实际的速率是与以往参数的模之和的开方成反比的。如果梯度大,那么学习速率就大;梯度小,那么学习速率小。缺点:在普通算法中也许效果不错,但深度学习中,深度过深时会造成训练提前结束。(由于一会快一会慢的学习速率)
RMSProp:在AdaGrad基础上,对学习率改进,每回合学习速率都有一定比例的衰减,衰减系数r。
Adam:带有Momentum动量项的RMSProp,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习速率。为不同的参数计算不同的自适应学习速率。