SGD
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210716204304252.png?x-oss-process=image/w
SGDM(SGD with Momentum)
Momentum项相当于速度,因为β稍小于1,表现出一些摩擦力,所以球不会无限加速下去,解决了局部最小点的问题,可以使球向最低点继续运动.
Adagrad
Adagrad给SGD加上一个分母,将每一个参数的每一次迭代的梯度取平方累加后在开方,用全局学习率除以这个数,作为学习率的动态更新。
对待不同的问题,用不同的数据进行分析.对于训练深度神经网络模型而言,从训练开始时积累梯度平方会导致有效学习率过早和过量的减小,所以该方法认为不是特别好,但目前看效果还行.
RMSprop(Root Mean Sqaure prop)
与使用动量的梯度下降一样,RMSprop的目的也是为了消除垂直方向的抖动,