【转】梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)

最新推荐文章于 2024-07-15 11:44:18 发布

Just Jump

最新推荐文章于 2024-07-15 11:44:18 发布

阅读量490

点赞数

分类专栏：机器学习文章标签：梯度下降自适应梯度下降动量梯度下降 Adam RMSProp

原文链接：https://mp.weixin.qq.com/s/Wx7aHnJCTJ3y6vpRNe6fuA

版权

机器学习专栏收录该内容

81 篇文章 9 订阅

订阅专栏

梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)

原版梯度下降（Vanilla Gradient Descent）

在机器学习的场景下，梯度下降学习的目标通常是最小化机器学习问题的损失函数。一个好的算法能够快速可靠地找到最小值(也就是说，它不会陷入局部极小值、鞍点或高原区域，而是寻找全局最小值)。

基本的梯度下降算法遵循的思想是，梯度的相反方向指向较低的区域。所以它在梯度的相反方向迭代。对于每个参数 theta，它做如下操作:

delta = - learning_rate * gradient

theta += delta

Theta 是一些需要优化的参数(例如，神经网络中神经元与神经元之间连接的权重，线性回归特征的系数，等等)。在机器学习优化设置中可能有成千上万个这样的 thetas 。Delta 是算法中每次迭代后 theta 的变化量; 希望随着每次这样的变化，theta 逐渐接近最优值。

动量（Momentum）

带有动量的梯度下降算法(简称动量)借鉴了物理学的思想。想象一下在无摩擦的碗里滚动一个球。没有在底部停止，而是积累的动量推动它前进，球继续前后滚动。

我们可以把动量的概念应用到我们的原版梯度下降算法中。在每个步骤中，除了常规的梯度之外，它还增加了前一步中的移动。在数学上，它通常表示为:

delta = - learning_rate * gradient + previous_delta * decay_rate (方程1)

theta += delta (方程2)

我发现如果我稍微修改一下这个方程，然后跟踪(衰减的)累积梯度之和，会更直观。当我们稍后引入 Adam 算法时，这也会使事情变得更简单。

sum_of_gradient = gradient + previous_sum_of_gradient * decay_rate (方程3)

delta = -learning_rate * sum_of_gradient (方程4)

theta += delta (方程5)

在哪些方面动量比原版梯度下降更好呢？在上面的比较中，你可以看到两个优点:

动量移动得更快(因为它积累的所有动量)
动量有机会逃脱局部极小值(因为动量可能推动它脱离局部极小值)。同样，我们将在后面看到，它也将更好地通过高原区

AdaGrad

Adaptive Gradient 算法，简称 AdaGrad，不是像动量一样跟踪梯度之和，而是跟踪梯度平方之和，并使用这种方法在不同的方向上调整梯度。这些方程通常用张量表示。避免使用张量来简化这里的语言。对于每个维度:

sum_of_gradient_squared = previous_sum_of_gradient_squared + gradient²

delta = -learning_rate * gradient / sqrt(sum_of_gradient_squared)

theta += delta

在机器学习优化中，一些特征是非常稀疏的。稀疏特征的平均梯度通常很小，所以这些特征的训练速度要慢得多。解决这个问题的一种方法是为每个特征设置不同的学习率，但这很快就会变得混乱。

Adagrad 解决这个问题的思路是: 你已经更新的特征越多，你将来更新的就越少，这样就有机会让其它特征(例如稀疏特征)赶上来。用可视化的术语来说，更新这个特征的程度即在这个维度中移动了多少，这个概念由梯度平方的累积和表达。注意在上面的一步一步的网格插图中，如果没有重新缩放调整(1b) ，球大部分会垂直向下移动; 如果有调整(1d) ，它会沿对角线方向移动。

RMSProp

然而，AdaGrad 的问题在于它非常慢。这是因为梯度的平方和只会增加而不会减小。Rmsprop (Root Mean Square Propagation)通过添加衰减因子来修复这个问题。

sum_of_gradient_squared = previous_sum_of_gradient_squared * decay_rate+ gradient² * (1- decay_rate)

delta = -learning_rate * gradient / sqrt(sum_of_gradient_squared)

theta += delta

更精确地说，梯度的平方和实际上是梯度平方的衰减和。衰减率表明的是只是最近的梯度平方有意义，而很久以前的梯度基本上会被遗忘。顺便说一句，“衰减率”这个术语有点用词不当。与我们在动量中看到的衰减率不同，除了衰减之外，这里的衰减率还有一个缩放效应: 它以一个因子(1 - 衰减率)向下缩放整个项。换句话说，如果衰减率设置为0.99，除了衰减之外，梯度的平方和将是 sqrt (1-0.99) = 0.1，因此对于相同的学习率，这一步大10倍。

Adam

最后但并非最不重要的是，Adam (Adaptive Moment Estimation)同时兼顾了动量和 RMSProp 的优点。Adam在实践中效果很好，因此在最近几年，它是深度学习问题的常用选择。

让我们来看看它是如何工作的:

sum_of_gradient = previous_sum_of_gradient * beta1 + gradient * (1 - beta1) [Momentum]

sum_of_gradient_squared = previous_sum_of_gradient_squared * beta2 + gradient² * (1- beta2) [RMSProp]

delta = -learning_rate * sum_of_gradient / sqrt(sum_of_gradient_squared)

theta += delta

Beta1是一阶矩梯度之和(动量之和)的衰减率，通常设置为0.9。Beta2是二阶矩梯度平方和的衰减率，通常设置为0.999。

Just Jump

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【转】梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)

梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)强烈推荐看原文：梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)，https://mp.weixin.qq.com/s/Wx7aHnJCTJ3y6vpRNe6fuA原版梯度下降（Vanilla Gradient Descent）在机器学习的场景下，梯度下降学习的目标通常是最小化机器学习问题的损失函数。一个好的算法能够快速可靠地找到最小值(也就是说，它不会陷入局部极小值、鞍点或高..
复制链接

扫一扫

专栏目录