参考:
深度学习优化方法-AdaGrad https://blog.csdn.net/program_developer/article/details/80756008
AdaGrad算法介绍
表示第i个参数的梯度,对于经典的SGD优化方法,参数θ的更新为:
再来看AdaGrad算法表示为:
其中,r为梯度累积变量,r的初始值为0。ε为全局学习率,需要自己设置。δ为小常数,为了数值稳定大约设置为。
AdaGrad算法分析
(1)从AdaGrad算法中可以看出,随着算法不断迭代,r会越来越大,整体的学习率会越来越小。所以,一般来说AdaGrad算法一开始是激励收敛,到了后面就慢慢变成惩罚收敛,速度越来越慢。
(2)在SGD中,随着梯度的增大,我们的学习步长应该是增大的。但是在AdaGrad中,随着梯度g的增大,我们的r也在逐渐的增大,且在梯度更新时r在分母上