0.GD(Gradient Descent)
概念:梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。
不足:
(1)靠近极小值时收敛速度减慢,如下图所示(这是因为越靠近极小值,参数的权重更新量越小,自己实现一个线性回归就知道了);
(2)在鞍部点梯度为零无法下降。
(3)直线搜索时可能会产生一些问题(比较容易在极小值点附近震荡);
(4)可能会“之字形”地下降。(特征没做归一化,不同量纲导致的梯度更新量差别大,迭代过程中容易偏来偏去的。不同方向的量纲不同但是学习率权值相同)
1. GDM (Gradient Descent with Momentum)
keyimprovement : imitate the world's momentum
the equation :
2. AdaGrad (Adaptive Gradient)
添加累计梯度作为量纲均衡化学习率。
3. RMSProp (Root Mean Square Propagation)
大体原理和AdaGrad一致,但是Ada的历史权重影响过大,RMS在此基础上引入历史变量权值,类似动量算法。
4. Adam (Adaptive Moment Estimation)
Adam 是 GDM 和 RMSProp的结合
5. Mini-batch Gradient Descent
在GD中,我们使用整个训练集数据来计算损失函数的梯度并更新一次参数。 SGD 一次运行一个样本或小批量样本,然后计算梯度或小批量梯度的平均值,然后更新它。 然后随机选择这个样本或小批量样本,因此称为随机梯度下降法。