经典最优化方法：梯度下降及其改进

最新推荐文章于 2022-10-26 22:52:02 发布

愚者吃鱼

最新推荐文章于 2022-10-26 22:52:02 发布

阅读量1.4k

点赞数

分类专栏：深度学习文章标签：深度学习 adam算法 rmsprop adagrad算法

本文链接：https://blog.csdn.net/ReDreamme/article/details/106599303

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文内容

本文对深度学习中一些比较经典的最优化方法（梯度下降、基于动量的梯度下降、AdaGrad、RMSprop和Adam）进行了总结。本人也是一边学习一边总结，所以文中仅包含一些浅显基础的知识，已有一定基础的同学可酌情浏览。

梯度下降法

基本原理

梯度下降法是求解无约束最优化问题的一种常用方法，它是一种迭代算法，通过不断迭代使得目标函数最小化。以求解 $f (x)$ 在 $R^n$ 上的最小值为例。假设 $f (x)$ 在 $R^n$ 上的具有一阶连续导数，求：
$\underset{x\in R^n}{min}f(x)$
首先选择一个初值 $x^{(0)}$ ，然后开始迭代，在每次迭代中以负梯度方向更新 $x$ ,从而使得函数值不断减小，直至收敛。其 $k + 1$ 次迭代的公式如下：
$x^{(k+1)}=x^{(k)}-\eta\nabla f(x^{(k)})$
其中 $\eta$ 是学习率， $\nabla f(x^{(k)})$ 为 $f (x)$ 在 $x^{(k)}$ 梯度。

梯度下降法存在的问题

梯度下降法简单，容易实现，但是它不保证最终求得的解为全局最优解(仅当目标函数为凸函数时梯度下降法的解是全局最优解)。另外梯度下降法的收敛速度也不能保证。

1.梯度下降法不能保证得到全局最优解
前面提到梯度下降法在每次迭代中以负梯度方向更新参数，这意味着当梯度等于0时，参数停止更新。但是我们都知道，当梯度为0时，参数可能停在函数的全局最优点，也可能在局部最优点甚至是驻点(连局部最优都不是!)。

2.很多时候梯度下降法是低效的
确切地说，当函数的形状是非均向的(anisotropic)，搜索路径会非常低效，原因是负梯度的方向没有指向最小值的方向。下面以《深度学习入门基于Python的理论与实现》中的例子说明，考虑下面这个函数的最小值
$f(x,y)=\frac1{20}x^2+y^2$
这个函数的图象如下图所示：
在这里插入图片描述
而它在各个的梯度方向如下图所示

稍有一点数学知识都可以知道， $f (x, y)$ 的最小值在 $(0, 0)$ 点处，但是上图中并非所有的点都指向 $(0, 0)$ 点，在这种情况下使用梯度下降法，很容易使参数更新的路径呈“之”字形移动，效率极为低下。
在这里插入图片描述

基于动量的梯度下降法

前面说到，梯度下降法对于形状非均向的的函数，梯度下降法的参数更新的路径常常呈“之”字形移动，效率低下。为了减缓这个问题，人们提出了基于动量的梯度下降法。基于动量的梯度下降法的思想十分简单：使参数更新的方向不仅受当前梯度影响，还受之前梯度影响。

指数加权平均

在介绍具体公式之前首先了解一下指数加权平均的思想。设 $v_t$ 、 $v_t-1 \dots v_0$ 有如下关系
$v_t=\beta v_{t-1}+(1-\beta)S_t\\ v_{t-1}=\beta v_{t-2}+(1-\beta)S_{t-1}\\ \vdots\\ v_{1}=\beta v_{0}+(1-\beta)S_{1}\\ v_{0}=0$
其中 $\beta$ 大于0小于1，可以发现 $v_t$ 既受 $v_{t-1}$ 的影响，又受 $S_{t}$ 的影响，而 $v_{t-1}$ 既受 $v_{t-2}$ 的影响，又受 $S_{t-1}$ 的影响,将上式合并化简，可以得到
$v_t=\underset{t-1个}{\beta\beta\dots\beta}(1-\beta)S_1+\dots+\beta(1-\beta)S_{t-1}+(1-\beta)S_t$
我们发现 $v_t$ 受 $S_t、S_{t-1} \dots S_1$ 的影响，且越靠前的 $S$ 对 $v_t$ 的影响越小。

基于动量的梯度下降

下面基于指数加权平均的思想对梯度下降进行改进，其 $k + 1$ 次迭代的公式如下
$v_t=\beta v_{t-1}+(1-\beta)\nabla f(x^{(k)})$
$x^{(k+1)}=x^{(k)}-\alpha v_t$
由于指数加权平均，参数每次更新的方向不仅受当前梯度影响，还受之前梯度影响，这使得参数更新的路径更加平缓，减小了更新路径的“之”化程度。

AdaGrad 与 RMSprop

梯度下降法还存在另外一个问题，那就是学习率的选取。学习率过大可能会导致算法无法收敛，学习率过小会导致学习花费过长时间。对于这个问题，人们提出一种被称为学习率衰减的方法，即随着学习的进行，学习率越来越小。

AdaGrad

AdaGrad就是基于学习率衰减的方法提出的，它会为参数的每一个元素是当地调整学习率，其 $k + 1$ 次迭代的公式如下
$h=h+\nabla f(x^k)\odot\nabla f(x^{(k)})\\ x^{(k+1)}=x^{(k)}-\eta\frac1{\sqrt h}\nabla f(x^{(k)})$
$x$ 表示要更新的参数， $\eta$ 表示学习率， $\nabla f(x^{(k)})$ 表示损失函数关于 $x$ 的梯度。 $h$ 是所有梯度值的平方和，在更新参数时，通过乘 $\frac1{\sqrt h}$ 动态地调整每次更新的尺度。
可以发现AdaGrad的学习率是越来越小的，这样，我们可以在一开始设置一个较大的学习率，加速算法收敛，而算法在学习的过程中会自动将学习率减小，保证算法能够收敛。
但是AdaGrad带来了新的问题，由于学习率是越来越小的，如果一直学习，学习率会趋于0，导致参数不再更新，如果此时算法还未收敛，我们的训练任务就失败了。

RMSprop

RMSprop对AdaGrad存在的问题进行了改善。它引入了之前提到的指数加权平均，它逐渐地遗忘过去的梯度，而将新梯度的信息更多地反映出来，其 $k + 1$ 次迭代的公式如下
$h=\beta h+(1-\beta)\nabla f(x^{(k)})\odot\nabla f(x^{(k)})\\ x^{(k+1)}=x^{(k)}-\eta\frac1{\sqrt h}\nabla f(x^{(k)})\\$
$x$ 表示要更新的参数， $\eta$ 表示学习率， $\nabla f(x^{(k)})$ 表示损失函数关于 $x$ 的梯度。 $h$ 是所有梯度值的加权平方和。同样，在更新参数时，通过乘 $\frac1{\sqrt h}$ 动态地调整每次更新的尺度。
$h$ 是所有梯度值的加权平方和，且越靠前的梯度影响越小，从而可以缓解学习率下降过快的问题。

Adam

前面介绍了两种改进梯度下降的思路，一种是基于动量的改进，一种是基于学习率衰减的改进。将这两种方法结合起来，就得到了Adam。其 $k + 1$ 次迭代的公式如下
$m_t=\beta_1m_{t-1}+(1-\beta_1)\nabla f(x^{(k)})\;\;\;\;\;①\\ n_t=\beta_2n_{t-1}+(1-\beta_2)\nabla f(x^{(k)})\odot\nabla f(x^{(k)})\;\;\;\;\;②\\ {\widehat m}_t=\frac{m_t}{1-\beta_1^t}\;\;\;\;\;③\\ {\widehat n}_t=\frac{n_t}{1-\beta_2^t}\;\;\;\;\;④\\ x^{(k+1)}=x^{(k)}-\eta\frac1{\sqrt{{\widehat n}_t}}{\widehat m}_t\;\;\;\;\;⑤$
$x$ 表示要更新的参数， $\eta$ 表示学习率， $\nabla f(x^{(k)})$ 表示损失函数， $\beta_1$ 和 $\beta_2$ 为超参数，通常取0.9和0.999。
Adam原理比较复杂，严谨可靠的论述请参照原文(参考文献[6])，以下仅为个人理解。前面说过Adam结合了动量的思想和学习率衰减的思想进行改进，从公式上很容易看出这两种思想的影子，公式①和③很显然反映了动量的思想，使参数更新的方向不仅受当前梯度影响，还受之前梯度影响。而公式②和④反映学习率衰减的思想，使学习率越来愈小。最后公式⑤对上述公式进行汇总，即完成了Adam的参数更新公式。