文章目录
(一)Background Knowledge
(二)Five New Optimizers
1、SGD算法
2、SGDM算法
用上一步的movement - 在此点的梯度,得到在此点上的movement
momentum就是一个惯性,使加速度为0(即梯度为0)时,仍可以往前移动,避免了梯度消失。(相当于有一个惯性指数)
3、Adagrad自适应梯度算法
当gradient突然变得很大时(较陡峭),学习率就变得很小,避免梯度爆炸;当gradient突然变得很小时(较平缓),学习率就变得很大,避免梯度消失
4、RMS Prop算法
与Adagrad自适应梯度算法唯一的区别就是:分母不同
RMS Prop算法中的分母类似于momentum中防止梯度消失的算法
Adagrad中的分母是对之前的梯度求和,会无止境地累加。当一开始的gradient很大时,