momentum 动量
记录的从第0步优化到第n步优化的步子
SGD 随机梯度下降
最简单的,走一步看一步
SGDM
还是走一步看一步,但是在走的每一步会受到之前所走过的步子的影响(下图中的V)
且越近的步子对当前步子的影响会越大(λ的次数会越来愈高)
重要的优点:当本次梯度为零(梯度消失)后,上一步会保证继续移动(有点类似惯性和动量的概念)
Adagrad
优点就是控制步长,让步长不回太大或太小(更接近最佳步长)
RMSProp
预期的效果和Adagrad接近,就是让步长合适
但是Adagrad有一个问题就是,较早期的梯度对当前步长的影响过大
RMSProp会逐渐减小早期步长对当前步长的影响(α的