深度学习笔记之优化算法(四)Nesterov动量方法的简单认识

静静的喝酒

已于 2023-10-10 13:58:27 修改

阅读量2.2k

点赞数 12

分类专栏：深度学习最优化理论与方法 python 文章标签：深度学习动量法 nesterov动量法

于 2023-10-08 18:56:00 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/133678408

版权

深度学习笔记之优化算法——Nesterov动量方法的简单认识

引言

引言

上一节对动量法进行了简单认识，本节将介绍 $\text{Nesterov}$ 动量方法。

回顾：梯度下降法与动量法

关于梯度下降法的迭代步骤描述如下：
$\theta \Leftarrow \theta - \eta \cdot \nabla_{\theta} \mathcal J(\theta)$
以标准二次型 $x^T \mathcal Qx,\mathcal Q = \begin{pmatrix} 0.5 \quad 0 \\ 0 \quad 20 \end{pmatrix},x = (x_1,x_2)^T$ 为目标函数，使用梯度下降法求解目标函数 $f (x)$ 最小值的迭代过程如下：
梯度下降法在病态条件下凸二次函数示例
很明显，由于 $\mathcal Q$ 的原因，导致在算法迭代过程中，迭代更新点对应的 $\text{Hessian Matrix} \Rightarrow \nabla^2 f(\cdot)$ 中的条件数都较大，从而使梯度下降法在该凸二次函数中的收敛速度沿着次线性收敛的方向退化，这也是图像中迭代路径震荡、折叠严重的主要原因。

这里仅观察少量几次迭代步骤，见下面局部图：
梯度下降法——局部图

其中红色线表示梯度下降法在迭代过程中的更新方向；以第一次迭代的更新方向为例，将该方向进行分解，可以得到上述两个方向分量。
由于目标函数 $f (x)$ 中 $x$ 是一个二维向量，因而在上图中的蓝色箭头分别描述了该方向在 $x_1,x_2$ 正交基上的分量。

从上述两个分量可以看出：

关于横轴分量，它一直指向前方，也就是最优解的方向；
而造成迭代过程震荡、折叠的是纵轴分量。

综上，从观察的角度描述迭代路径震荡折叠现象严重的原因在于：横轴上的分量向前跨越的步幅很小；相比之下，纵轴上的分量上下的波动很大。针对该现象，可以得到相应的优化思路：
具体效果见下图绿色实心箭头,其中第一步红色与绿色实线箭头重合,因为在初始化过程中通常将动量向量初始化为零向量导致,这里以第二次迭代为例进行描述。图中的红色虚线表示梯度下降法当前迭代步骤在横轴、纵轴上的分量;绿色虚线则表示优化思路在当前步骤在横轴、纵轴上的分量。

压缩纵轴分量上的波动幅度；
拉伸/延长横轴分量上的步幅，从而使其更快地达到极值点；

优化思路示例
如何从数学角度达到这样的效果：利用过去迭代步骤中的梯度数据，对当前迭代步骤的梯度信息进行修正。继续观察第二次迭代步骤：
第二次迭代步骤完整描述
在第一次迭代步骤结束后，我们得到了一个历史梯度的分量信息，即图中的蓝色虚线；在执行第二次迭代步骤时，我们需要将该步骤的梯度分量与相应的历史梯度分量执行加权运算：

观察纵轴分量：由于历史纵轴分量与当前纵轴分量方向相反(红色、蓝色虚线垂直箭头)，这势必会缩减当前迭代步骤的纵轴分量(绿色纵向箭头)；
相反，观察横轴分量：历史横轴分量与当前横轴分量方向相同(红色、蓝色虚线横向箭头)，这必然会扩张当前迭代步骤的横轴分量(绿色横向箭头)；

如何对历史梯度信息进行描述，我们需要引入一个新的变量 $m$ ，用于累积历史梯度信息：
$\begin{cases} m_{t} = m_{t-1} + \nabla_{\theta;t-1} \mathcal J(\theta_{t-1}) \\ \theta_t = \theta_{t-1} - \eta \cdot m_t \end{cases}$

上式的 $m_t$ 确实达到了历史迭代步骤梯度累积的作用，但同样衍生出了新的问题：上面步骤仅是将历史梯度信息完整地存储进来，如果迭代步骤较多的情况下，由于历史信息在累积过程中没有任何的丢失，最终可能导致：迭代步骤较深时，初始迭代步骤的历史梯度信息对当前时刻梯度的更新没有参考价值。相反，有可能会给当前迭代步骤引向错误的方向。因而关于 $m_t$ 的调整方式表示如下：
$\begin{cases} m_t = \beta \cdot m_{t-1} + (1 - \beta) \cdot \nabla_{\theta;t-1} \mathcal J(\theta_{t-1}) \\ \theta_t = \theta_{t-1} - \eta \cdot m_t \end{cases}$
关于上式的迭代加权运算被称作指数加权移动平均法。假设 $\beta = 0.9$ ，关于 $m_t$ 的表示如下：
$\begin{aligned} m_t & = 0.9 \times m_{t-1} + 0.1 \times \nabla_{\theta;t-1} \mathcal J(\theta_{t-1}) \\ & = 0.9 \times \left[0.9 \times m_{t-2} + 0.1 \times \nabla_{\theta;t-2} \mathcal J(\theta_{t-2}) \right] + 0.1 \times \nabla_{\theta;t-1} \mathcal J(\theta_{t-1}) \\ & = \cdots \\ & = 0.1 \times 0.9^0 \times \nabla_{\theta;t-1} \mathcal J(\theta_{t-1}) + 0.1 \times 0.9^1 \times \nabla_{\theta;t-2} \mathcal J(\theta_{t-2}) + 0.1 \times 0.9^2 \times \nabla_{\theta;t-3} \mathcal J(\theta_{t-3}) + \cdots + 0.1 \times 0.9^{t-1} \times \nabla_{\theta;1} \mathcal J(\theta_1) \end{aligned}$