一、Adagrad
Adagrad方法是一种自适应的梯度下降方法,原始模型中的梯度为,Adagrad使用一次偏导估计二次偏导,如下:
它可以自适应如下椭圆两个方向的梯度下降情况:
二、RMSProp(Adagrad的进阶版)
考虑更复杂的情况:
RMSProp对Adagrad的分母项进行了改进,它对平方和中的前面项与当前项加了权重。通过调整值,调整当前位置的偏导数与之前位置偏导数的权重得到更灵活的梯度方法。
三、Momentum
梯度下降可能会陷入Local minimum,包括梯度接近于0的位置:
借鉴物理中的小球滚动过程惯性的特征对梯度增加正则化项,只要在Local Minimum出不出现很陡的上坡,都有可能向前寻找更低点。
梯度最终决定于所有走过位置偏导的加权。即使当前的偏导为0(Local Minumum),由于惯性(以前的偏导还起作用),会继续向前走
四、Adam
Adam的实质是RMSProp与Momentum的组合