几种优化算法的读书笔记——梯度下降、牛顿法、拟牛顿法、随机梯度下降、AdaGrad、RMSProp、Adam及选择优化算法的建议

最新推荐文章于 2023-10-08 18:56:00 发布

Zjhao666

最新推荐文章于 2023-10-08 18:56:00 发布

阅读量1.6k

点赞数

分类专栏：人工智能文章标签：优化算法

本文链接：https://blog.csdn.net/Zjhao666/article/details/88402518

版权

人工智能专栏收录该内容

23 篇文章 0 订阅

订阅专栏

文章目录

1 梯度下降
2 牛顿法和拟牛顿法
3 随机梯度下降
4 使用动量的随机梯度下降
5 自适应学习率算法
6 总结——选择正确的优化算法

1 梯度下降

1.1 特点

求解无约束最优化问题的一种最常用方法
实现简单
是一种迭代算法，每一步需要求解目标函数的梯度向量

1.2 思想

假设 $f (x)$ 是 $R^n$ 上具有一阶连续偏导数的函数。要求解得无约束最优化问题是
$\tag{1.1}\min_{x\in R^n} f(x)$
选取适当的初始值 $x^{(0)}$ ，不断迭代，更新 $x$ 的值，进行目标函数的最小化，直到收敛。由于负梯度方向是函数下降最快的方向，因此，在迭代的每一步，以负梯度方向更新 $x$ 的值，从而达到减少函数值的目的。

1.3 数学基础

由于 $f (x)$ 具有一阶连续偏导数，若第 $k$ 次迭代值为 $x^{(k)}$ ，则可将 $f (x)$ 在 $x^{(k)}$ 附近进行一阶泰勒展开：
$\tag{1.2}f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})$
这里， $g_k=g(x^{(k)})=\nabla f(x^{(k)})$ 为 $f (x)$ 在 $x^{(k+1)}$ 的梯度。
求出第 $k + 1$ 次迭代值 $x^{(k+1)}$ ：
$\tag{1.3}x^{(k+1)} \leftarrow x^{(k)}+\lambda_{k}p_{k}$
其中， $p_{k}$ 是搜索方向，取负梯度方向 $p_{k}=-\nabla{f(x^{(k)})}$ , $\lambda_{k}$ 是步长，由一维搜索确定，即 $\lambda_{k}$ 使得

$\tag{1.4}f(x^{(k)}+\lambda_{k}p_{k})=\min_{\lambda \geq 0}{x^{(k)}+\lambda p_{k}}$

1.4 具体算法

输入：目标函数 $f (x)$ , 梯度函数 $g(X)=\nabla f(x)$ ，计算精度 $\epsilon$ 。
输出： $f (x)$ 的极小值点 $x^*$ 。

取初始值 $x^{(0)}\in R^n$ ，置 $k = 0$
计算 $f(x^{(k)})$
计算梯度 $g_k=g(x^{(k)})$ ,当 $||g_k||<\epsilon$ 时，停止迭代，令x^*=x{(k)}；否则，令 $p_k=-g(x^{(k)})$ ，求 $\lambda_k$ ，使
$f(x^{(k)}+\lambda_k p_k)=\min_{\lambda \geq0 }f(x^{(k)}+\lambda p_k)$
置 $x^{(k+1)}=x^{(k)}+\lambda_k p_k$ ，计算 $f(x^{(k+1)})$
当 $||f(x^{(k+1)})-f(x^{(k)})||<\epsilon$ 或 $||x^(k+1)-x^(k)||<\epsilon$ 时，停止迭代，令 $x^*=x^(k+1)$
否则，置 $k = k + 1$ ，转 3

当目标函数是凸函数时，梯度下降法的解释全局最优解。一般情况下，其解不保证是全局最优解。梯度下降法的收敛速度也未必是最快的。

2 牛顿法和拟牛顿法

2.1 特点

也是求解无约束最优化问题的常用方法
有收敛速度快的特点
是迭代算法，每一步需要求解目标函数的海赛矩阵的逆矩阵
计算比较复杂
拟牛顿法通过正定矩阵近似海赛矩阵的逆矩阵或海赛矩阵，简化了这一计算过程

2.2 牛顿法

2.2.1 数学基础

考虑无约束最优化问题
$\min_{x \in R^n} f(x) \tag{2.1}$
其中 $x^*$ 为目标函数的最小点

假设 $f (x)$ 具有二阶连续偏导数，若第 $k$ 次迭代值为 $x^{(k)}$ ，则可将 $f (x)$ 在 $x^{(k)}$ 附近进行二阶泰勒展开
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+ {1\over2}(x-x^{(k)})^T H(x^{(k)})(x-x^{(k)}) \tag{2.2}$
这里， $g_k=g(x^{(k)})=\nabla f(x^{(k)})$ 是 $f (x)$ 的梯度向量在点 $x^{(k)}$ 的值， $H(x^{(k)})$ 是 $f (x)$ 的海赛矩阵(Hesse matrix)
$\left[ \partial^2 f \over \partial x_i \partial x_j \right]_{n \times n} \tag{2.3}$
在点 $x^{(k)}$ 的值。函数 $f (x)$ 有极值的必要条件是在极值点处一阶导数为0，即梯度向量为0。特别是当 $H(X^{(k)})$ 是正定矩阵时，函数 $f (x)$ 的极值为极小值。

2.2.2 思想

牛顿法利用极小点的必要条件
$\nabla f(x)=0 \tag{2.4}$
每次迭代中从点 $x^{(k)}$ 开始，求目标函数的极小点，作为第 $k + 1$ 次迭代值 $x^{(k+1)}$ 。具体地，假设 $x^{(k+1)}$ 满足：
$\nabla f(x^{(k+1)})=0 \tag{2.5}$
由式(2.2)有
$\nabla f(x)=g_k + H_k(x-x^{(k)}) \tag{2.6}$
其中 $H_k=H(x^{(k)})$ 。这样，式(2.5)变为
$g_k + H_k(x^{(k+1)}-x^{(k)})=0 \tag{2.7}$
因此，
$x^{(k+1)}=x^{(k)}-H_k^{-1}g_k \tag{2.8}$
或者
$x^{(k+1)}=x^{(k)}+p_k \tag{2.9}$
其中，
$H_kp_k=-g_k \tag{2.10}$
用式(2.8)作为迭代公式的算法就是牛顿法。

2.2.3 具体算法

输入：目标函数 $f (X)$ ，梯度 $g(x)=\nabla f(x)$ ，海赛矩阵 $H (x)$ ，精度要求 $\epsilon$ ；
输出： $f (x)$ 的极小点 $x^*$

取初始点 $x^{(0)}$ ，置 $k = 0$
计算 $g_k=g(x^{(k)})$
若 $||g_k||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$
计算 $H_k=H(x^{(k)})$ ，并求 $p_k$ ：
$H_kp_k=-g_k$
置 $x^{(k+1)}=x^{(k)}+p_k$
置 $k = k + 1$ ，转(2)

步骤(4)求 $p_k$ ， $p_k=-H_k^{-1}g_k$ ，要求 $H_k^{-1}$ ，计算比较复杂，所以有其他改进的方法。

2.3 拟牛顿法

2.3.1 数学基础

在牛顿法的迭代中，需要计算海赛矩阵的逆矩阵 $H^{-1}$ ，这一计算比较复杂，考虑用一个 $n$ 阶矩阵 $G_k=G(x^{(k)})$ 来近似替代 $H^{-1}_k=H^{-1}(x^{(k)})$ 。这就是拟牛顿法的基本想法。
先看牛顿法迭代中海赛矩阵 $H_k$ 满足的条件。首先， $H_k$ 满足以下关系。在式(2.6)中取 $x=x^{(k+1)}$ ，即得
$g_{k+1}-g_k=H_k({x^{(k+1)}-x^{(k)}}) \tag{2.11}$
记 $y_k=g_{k+1}-g_{k}$ , $\delta_k=x^{(k+1)}-x^{(k)}$ ，则
$y_k=H_k\delta_k \tag{2.12}$
或
$H_k^{-1}y_k=\delta_k \tag{2.13}$
式(2.12)或(2.13)称为拟牛顿条件。
如果 $H_k$ 是正定的( $H_k^{-1}$ 也是正定的)，那么可以保证牛顿法搜索方向 $p_k$ 是下降方向，这是因为搜索方向 $p_k=-H_k^{-1}g_k$ ，由式(2.8)有
$x=x^{k}+\lambda p_k=x^{(k)}=x^{(k)}-\lambda H^{(-1)}g_k \tag{2.14}$
所以 $f (x)$ 在 $x^{(k)}$ 的泰勒展开式(2.2)可以近似写成：
$f(x)=f(x^{(k)})-\lambda g_k^TH_k^{-1}g_k \tag{2.15}$
因 $H_k^{-1}$ 正定，固有 $g_k^TH_k^{-1}g_k>0$ 。当 $\lambda$ 为一个充分小的正数时，总有 $f(x)<f(x^{(k)})$ ，也就是说 $p_k$ 是下降方向。

2.3.2 思想

拟牛顿法将 $G_k$ 作为 $H_k^{-1}$ 的近似，要求矩阵 $G_k$ 满足同样的条件。首先，每次迭代矩阵 $G_k$ 是正定的。同时， $G_k$ 满足下面的拟牛顿条件：
$G_{k+1}y_k=\delta_k \tag{2.16}$
按照拟牛顿条件选择 $G_k$ 作为 $H_k^{-1}$ 的近似或选择 $B_k$ 作为 $H_k$ 近似的算法称为拟牛顿法。

2.3.4 具体算法

按照拟牛顿条件，在每次迭代中可以选择更新矩阵 $G_{k+1}$ ：
$G_{k+1}=G_k+\Delta G_k \tag{2.17}$
这种选择有一定的灵活性，因此有多重具体实现方法。2.6节介绍Broyden类牛顿法

2.4 DFP算法

2.4.1 数学基础&&思想

DFP算法选择 $G_k+1$ 的方法是，假设每一步迭代中矩阵 $G_{k+1}$ 是由 $G_k$ 加上两个附加项构成的，即
$G_{k+1}=G_k+P_k+Q_k \tag{2.18}$
其中 $P_k$ , $Q_k$ 是待定矩阵，这时，
$G_{k+1}y_k=G_ky_k+P_ky_k+Q_ky_k \tag{2.19}$
为使 $G_{k+1}$ 满足拟牛顿条件，可使 $P_k$ 和 $Q_k$ 满足：
$P_ky_k=\delta_k \tag{2.20}$
$Q_ky_k=-G_ky_k \tag{2.21}$
事实上，不难找出这样的P_k和Q_k,例如取
$P_k= \frac{\delta_k\delta_k^T}{\delta_k^Ty_k} \tag{2.22}$
$Q_k=-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k} \tag{2.23}$
这样就可得到矩阵 $G_{k+1}$ 的迭代公式：
$G_{k+1}=G_k+\frac{\delta_k\delta_k^T}{\delta_k^Ty_k}-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k} \tag{2.24}$
称为DFP算法。
可以证明，如果初始矩阵 $G_0$ 是正定的，则迭代过程中的每个矩阵 $G_k$ 都是正定的。

2.4.2 具体算法

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，精度要求 $\epsilon$ ；
输出： $f (x)$ 的极小点 $x^*$ 。

选定初始点 $x^{(0)}$ ，取 $G_0$ 为正定对称矩阵，置 $k = 0$
计算 $g_k=g(x^{(k)})$ 。若 $||g_k||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$ ；否则转 3
置 $p_k=-G_kg_k$
一维搜索：求 $\lambda$ 使得
$f(x^{(k)}+\lambda_kp_k)=\min_{\lambda\geq0}f(x^{(k)}+\lambda p_k)$
置 $x^{(k+1)}=x^{(k)}+\lambda_kp_k$
计算 $g_{k+1}=g(x^{(k+1)})$ ，若 $||g_{k+1}||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k+1)}$ ；否则，按式(2.24)算出 $G_{k+1}$
置 $k = k + 1$ ，转 3

2.5 BFGS算法

2.5.1 特点

BFGS算法是最流行的拟牛顿算法。

2.5.2 数学基础

可以考虑用 $G_k$ 逼近海赛矩阵的逆矩阵 $H_{-1}$ ，也可以考虑用 $B_k$ 逼近海赛矩阵 $H$ 。

2.5.3 思想

这时，相应的拟牛顿条件是
$B_{k+1}\delta_k=y_k \tag{2.25}$
可以用同样的方法得到另一迭代公式。首先令
$B_{k+1}=B_k+P_k+Q_k \tag{2.26}$
$B_{k+1}\delta_k=B_k\delta_k+P_k\delta_k+Q_k\delta_k \tag{2.27}$
考虑使 $P_k$ 和 $Q_k$ 满足：
$P_k\delta_k=y_k \tag{2.28}$
$Q_k\delta_k=-B_k\delta_k \tag{2.29}$
找出适合条件的 $P_k$ 和 $Q_k$ ，得到 $B F G S$ 算法矩阵 $B_{k+1}$ 的迭代公式：
$B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k} \tag{2.30}$
可以证明，如果初始矩阵 $B_0$ 是正定的，则迭代过程中的每个矩阵 $B_k$ 都是正定的。

2.5.4 具体算法

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，精度要求 $\epsilon$ ；
输出： $f (x)$ 的极小点 $x^*$ 。

选定初始点 $x^{(0)}$ ，取 $B_0$ 为正定对称矩阵，置 $k = 0$
计算 $g_k=g(x^{(k)})$ 。若 $||g_k||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$ ；否则转 3
由 $B_Kp_k=-g_k$ 求出 $p_k$
一维搜索：求 $\lambda_k$ 使得
$f(x^{(k)}+\lambda_k+p_k)=\min_{\lambda\geq0}f(x^{(k)}+\lambda p_k)$
置 $x^{(k+1)}=x^{(k)}+\lambda_kp_k$
计算 $g_{k+1}=g(x)^{(k+1)}$ ，若 $||g_{k+1}||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k+1)}$ ；否则，按式(2.30)算出 $B_{k+1}$
置 $k = k + 1$ ，转 3

2.6 Broyden类牛顿法

2.6.1 数学基础——Sherman-Morrison公式

假设 $A$ 是 $n$ 阶可逆矩阵， $u$ , $v$ 是 $n$ 维向量，且 $A+uv^T$ 也是可逆矩阵，则
$(A+uv)^{-1}=A^{-1}-\frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}$

2.6.2 思想

我们可以从 $B F G S$ 算法矩阵 $B_k$ 的迭代公式(2.30)得到 $B F G S$ 算法关于 $G_k$ 的迭代公式。

2.6.3 具体算法

事实上，若记 $G_k=B_k^{-1}$ , $G_{k+1}=B_{k+1}^{-1}$ ，那么对式(2.30)两次应用 $S h e r m a n - M o r r i s o n$ 公式即得
$G_{k+1}=\left( I-\frac{\delta_ky_k^T}{\delta_k^Ty_k} \right) G_k \left( I-\frac{\delta_ky_k^T}{\delta_k^Ty_k} \right)^T+\frac{\delta_k\delta_k^T}{\delta_k^Ty_k} \tag{2.31}$
称为 $B F G S$ 算法关于 $G_k$ 的迭代公式。
由 $D F P$ 算法 $G_k$ 的迭代公式(2.23)得到的 $G_{k+1}$ 记作 $G_{DFP}$ ，由 $B F G S$ 算法 $G_k$ 的迭代公式(2.31)得到的 $G_{k+1}$ 记作 $G_{BFGS}$ ，它们都满足方程拟牛顿条件时，所以它们的线性组合
$G_{k+1}=\alpha G^{DFP}+(1-\alpha G^{BFGS}) \tag{2.32}$
也满足拟牛顿条件式，而且是正定的。其中 $0\leq\alpha\leq1$ 。这样就得到了一类拟牛顿法，称为 $B r o y d e n$ 类算法。

3 随机梯度下降

3.1 特点

随机梯度下降( $S G D$ )及其变种很可能是一般机器学习中应用最多的优化算法，特别是在深度学习中。随机梯度下降可以很大程度地加速，沿着随机挑选的小批量数据的梯度下降方向。

3.2 思想

按照数据生成分布抽取 $m$ 个小批量（独立同分布）样本，通过计算它们梯度均值，我们可以得到梯度的无偏估计。

3.3 具体算法

当前：随机梯度下降( $S G D$ )在第k个训练迭代的更新。
输入：学习率 $\epsilon_k$ , 初始参数 $\theta$
$\quad$ while 停止条件不达到 do
$\quad$ $\quad$ 从训练集中采集包含 $m$ 个样本{ $x^{(1)},...,x^{(m)}$ }的小批量，其中 $x^{(i)}$ 对应目标为 $y^{(i)}$ 。
$\quad$ $\quad$ 计算梯度估计： $\leftarrow + \frac{1}{m}\nabla_\theta\Sigma_iL(f(x^{(i)};\theta),y^{(i)})$
$\quad$ $\quad$ 应用更新： $\theta \leftarrow \theta - \epsilon g$
$\quad$ end while

3.4 讲解

$S G D$ 算法中的一个关键参数是学习率。之前，我们介绍的SGD使用固定的学习率。在实践中，有必要随着时间的推移逐渐降低学习率，因此我们将第 $k$ 步迭代的学习率记作 $\epsilon_k$ 。
这是因为 $S G D$ 中梯度估计引入的噪声源( $m$ 个训练样本的随机采样)并不会在极小点处消失。相比之下，当我们使用批量梯度下降达到极小点时，整个代价函数的真实梯度会变得很小，之后为0，因此批量梯度下降可以使用固定的学习率。保证 $S G D$ 收敛的一个充分条件是
$\Sigma_{k=1}^{\infty}\epsilon_k=\infty \tag{3.1}$
且
$\Sigma_{k=1}^{\infty}\epsilon_k^2<\infty \tag{3.2}$
实践中，一般会线性衰减学习率直到第 $r$ 次迭代：
$\epsilon_k=(1-\alpha)\epsilon_0+\alpha\epsilon_r \tag{3.3}$
其中 $\alpha=\frac{k}{r}$ 。在 $r$ 步迭代之后，一般使 $\epsilon$ 保持常数。
学习率可通过实验和误差来选取，通常最好的选择方法是检测目标函数值随时间变化的学习曲线。与其说是科学，这更像是一门艺术，我们应该谨慎地参考关于这个问题的大部分指导。使用线性策略时，通常选择的参数为 $\epsilon_0,\epsilon_r,和r$ 。通常 $r$ 被设为需要反复遍历训练集几百次的迭代次数。通常 $\epsilon_r$ 应设为大约 $\epsilon_0的1\%$ 。主要问题是如何设置 $\epsilon_0$ 。若 $\epsilon_0$ 太大，学习曲线将会剧烈振荡，代价函数值通常会明显增加。温和的振荡是良好的，容易在训练随机代价函数(例如使用 $D r o p o u t$ 的代价函数)时出现。如果学习率太小，那么学习过程会很缓慢。如果初始学习率太低，那么学习可能会卡在一个相当高的代价值。通常，就总训练时间和最终代价值而言，最优初始学习会高于大约迭代100次后达到最佳效果的学习率。因此，通常最好是检测最早的几轮迭代，选择一个比在效果上表现最佳的学习率更大的学习率，但又不能太大导致严重的震荡。
$S G D$ 及相关的小批量亦或是更广义的基于梯度优化的在线学习算法，一个重要的性质是每一步更新的计算时间不依赖训练样本数目的多寡。即使训练样本数目非常大时，它们也能收敛。对于足够大的数据集， $S G D$ 可能会在处理整个训练集之前就收敛到最终测试集误差的某个固定容差范围内。
研究优化算法的收敛率，一般会衡量额外误差(excess error) $J(\theta)-\min_\theta J(\theta)$ ，即当前代价函数超出最低可能代价的量。 $S G D$ 应用于凸问题时， $k$ 次迭代后的额外误差量级是 $O\left(\frac{1}{\sqrt{k}} \right)$ ,在强凸情况下是 $O(\frac{1}{k})$ 。除非假定额外的条件，否则这些界限不能进一步改进。批量梯度下降在理论上比随机梯度下降有更好的收敛率。然而， $C r a m e r - R a o$ 界限指出，泛化误差的下降速度不会快于 $O(\frac{1}{k})$ 。 $Bottou\quad and\quad Bousquet$ 因此认为对于机器学习任务，不值得探寻快于 $O(\frac{1}{k})$ 的优化算法——更快的收敛可能对应着过拟合。因此，渐进分析掩盖了随机梯度下降在少量更新步之后的很多优点。对于大数据集， $S G D$ 只需非常少量样本计算梯度从而实现初始快速更新，远远超过了其缓慢的渐进收敛。后文讨论的大多数算法在实践中都受益于这种性质，但是损失了常数倍 $O(\frac{1}{k})$ 的渐进分析。我们也可以在学习过程中逐渐增大小批量的大小，以此权衡批量梯度下降和随机梯度下降两者的优点。

4 使用动量的随机梯度下降

4.1 背景

虽然随机梯度下降仍然是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法累积了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。

4.2 物理学基础

从形式上看，动量算法引入了变量 $v$ 充当速度角色——它代表参数在参数空间移动的方向和速率。速度被设为负梯度的指数衰减平均。名称动量(momentum)来自物理类比，根据牛顿运动定律，负梯度是移动空间中粒子的力。动量在物理学上定义为质量乘以速度。

4.3 思想

在动量学习算法中，我们假设是单位质量，因此速度向量 $v$ 也可以看作粒子的动量。超参数 $\alpha \in [0,1)$ 决定了之前梯度的贡献衰减得有多慢。更新规则如下：
$\leftarrow \alpha v - \epsilon \nabla_\theta \left(\frac{1}{m} \Sigma_{i=1}^{m}L(f(x^{(i)};\theta),y^{(i)}) \right) \tag{3.4}$
$\theta \leftarrow \theta + v \tag{3.5}$
速度 $v$ 累积了梯度元素 $\nabla_\theta \left(\frac{1}{m} \Sigma_{i=1}^{m}L(f(x^{(i)};\theta),y^{(i)}) \right)$ 。相对于 $\epsilon$ ， $\alpha$ 越大，之前梯度对现在方向的影响也越大。带动量的 $S G D$ 算法如下所示。

4.4 具体算法

使用动量的随机梯度下降(SGD)
输入：学习率 $\epsilon$ ,动量参数 $\alpha$
输入：初始参数 $\theta$ ,初始速度 $v$
$\quad$ while 停止准则未满足 do
$\quad$ $\quad$ 从训练集中采包含 $m$ 个样本 ${x^{(1)},...,x^{(m)}}$ 的小批量，对应目标为 $y^{(i)}$
$\quad$ $\quad$ 计算梯度估计： $\leftarrow \frac{1}{m} \Sigma_{i=1}^{m}L(f(x^{(i)};\theta),y^{(i)})$
$\quad$ $\quad$ 计算速度更新： $\leftarrow \alpha v - \epsilon g$
$\quad$ $\quad$ 应用更新： $\theta \leftarrow + v$
$\quad$ end while

4.5 讲解

之前，步长只是梯度范数乘以学习率。现在，步长取决于梯度序列的大小和排列。当许多连续的梯度指向相同的方向时，步长最大。如果动量算法总是观测到梯度 $g$ ，那么它会在方向 $- g$ 上不停加速，直到达到最终速度，其中步长大小为
$\frac{\epsilon ||g||}{1-\alpha} \tag{3.6}$
因此将动量的超参数视为 $\frac{1}{1-\alpha}$ 有助于理解。例如， $\alpha=0.9$ 对应着最大速度10倍于梯度下降算法。
在实践中， $\alpha$ 的一般取值为 $0.5, 0.9 和 0.99$ 。和学习率一样， $\alpha$ 也会随着时间不断调整。一般初始值是一个较小的值，随后会慢慢变大。随着时间推移调整 $\alpha$ 没有收缩 $\epsilon$ 重要。

5 自适应学习率算法

5.1 背景

神经网络研究员早就意识到学习率肯定是难以设置的超参数之一，因为它对模型的性能有显著的影响。损失通常高度敏感与参数空间中的某些方向，而不敏感与其他。动量算法可以在一定程度缓解这些问题。但这样做的代价是引入了另一个超参数。在这种情况下，自然会问有没有其他方法。如果我们相信方向敏感度是轴对齐的，那么每个参数设置不同的学习率，在整个学习过程中自动适应这些学习率是有道理的。

5.2 AdaGrad

5.2.1 特点

独立地适应所有模型参数的学习率，缩放每个参数反比于其所有梯度历史平方值总和的平方根。具有损失最大偏导的参数相应地有一个快速下降的学习率，而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。
在凸优化背景中， $A d a G r a d$ 具有一些令人满意的理论性质。然而，经验已经发现，对于训练深度神经网络模型而言，从训练开始时累计梯度平方会导致有效学习率过早或过量的减少。 $A d a G r a d$ 在某些深度学习模型上效果不错，但不是全部。

5.2.2 具体算法

$A d a G r a d$ 算法
输入：全局学习率 $\epsilon$
输入：初始参数 $\theta$
输入：小常数 $\delta$ ，为了数值稳定大约设置为 $10^{-7}$
$\quad$ 初始化梯度累计变量 $r = 0$
$\quad$ while 没有达到停止标准
$\quad$ $\quad$ 从训练集中采集包含 $m$ 个样本{ $x^{(1)},...,x^{(m)}$ }的小批量，其中 $x^{(i)}$ 对应目标为 $y^{(i)}$
$\quad$ $\quad$ 计算梯度： $\leftarrow \frac{1}{m} \Sigma_iL(f(x^{(i)};\theta),y^{(i)})$
$\quad$ $\quad$ 累计平方梯度： $\leftarrow r + g \bigodot g$
$\quad$ $\quad$ 计算参数更新： $\nabla\theta=-\frac{\epsilon}{\sqrt{\delta+r}}\bigodot g$ (逐元素地应用除和求平方根)
$\quad$ $\quad$ 应用更新： $\theta \leftarrow \theta + \Delta\theta$
$\quad$ end while

5.3 RMSProp

5.3.1 特点

$R M S P r o p$ 算法修改 $A d a G r a d$ 以在非凸设定下效果更好，改变梯度累计为指数加权的移动平均。 $A d a G r a d$ 旨在应用于凸问题时快速收敛。当应用于非凸函数训练神经网络时，学习轨迹可能穿过了很多不同的结构，最终达到一个局部是凸碗的区域。 $A d a G r a d$ 根据平方梯度的整个历史收缩学习率，可能使得学习率在达到这样的凸结构前就变得发太小了。 $R M S P r o p$ 使用指数衰减平均以丢弃遥远过去的历史，使其能够在找到凸碗状结构后迅速收敛，它就像一个初始化于该碗状结构的 $A d a G r a d$ 算法实例。

5.3.2 具体算法

$R M S P r o p$ 的标准形式如下所示。相比于 $A d a G r a d$ ，使用移动平均引入一个新的超参数 $\rho$ ，用来控制移动平均的长度范围。

输入：全局学习率 $\epsilon$
输入：初始参数 $\theta$
输入：小常数 $\delta$ ，为了数值稳定大约设置为 $10^{-6}$ (用于被小数除时的数值稳定)
$\quad$ 初始化梯度累计变量 $r = 0$
$\quad$ while 没有达到停止标准
$\quad$ $\quad$ 从训练集中采集包含 $m$ 个样本{ $x^{(1)},...,x^{(m)}$ }的小批量，其中 $x^{(i)}$ 对应目标为 $y^{(i)}$
$\quad$ $\quad$ 计算梯度： $\leftarrow \frac{1}{m} \Sigma_iL(f(x^{(i)};\theta),y^{(i)})$
$\quad$ $\quad$ 累计平方梯度： $\leftarrow \rho r + (1-\rho)g \bigodot g$
$\quad$ $\quad$ 计算参数更新： $\nabla\theta=-\frac{\epsilon}{\sqrt{\delta+r}}\bigodot g$ ( $\frac{\epsilon}{\sqrt{\delta+r}}$ 逐元素应用)
$\quad$ $\quad$ 应用更新： $\theta \leftarrow \theta + \Delta\theta$
$\quad$ end while

5.3.3 讲解

经验上， $R M S P r o p$ 已被证明是一种有效且使用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。

5.4 Adam

5.4.1 特点

$A d a m$ 是另一种学习率自适应的优化算法。如下所示：

5.4.2 具体算法

输入：步长 $\epsilon$ (建议默认为：0.001)
输入：矩估计的指数衰减速率， $\rho_1和\rho_2$ 在区间 $[0, 1)$ 内。(建议默认为:分别为 $0.9$ 和 $0.999$ )
输入：用于数值稳定的小常数 $\delta$ (建议默认为： $10^{-8}$ )
输入：初始参数 $\theta$
$\quad$ 初始化一阶和二阶矩变量 $s = 0, r = 1$
$\quad$ 初始化时间步 $t = 0$
$\quad$ while 没有达到停止准则 do
$\quad$ $\quad$ 从训练集中采集包含 $m$ 个样本{ $x^{(1)},...,x^{(m)}$ }的小批量，其中 $x^{(i)}$ 对应目标为 $y^{(i)}$
$\quad$ $\quad$ 计算梯度： $\leftarrow \frac{1}{m} \Sigma_iL(f(x^{(i)};\theta),y^{(i)})$
$\quad$ $\quad$ $\leftarrow t + 1$
$\quad$ $\quad$ 更新有偏一阶矩估计： $\leftarrow \rho_1 s + (1-\rho_1) g$
$\quad$ $\quad$ 更新有偏二阶矩估计： $\leftarrow \rho_2 r + (1-\rho_2) g \bigodot g$
$\quad$ $\quad$ 更新修正一阶矩的偏差： $s_2 \leftarrow \frac{s}{1-p_1^t}$
$\quad$ $\quad$ 更新修正二阶矩的偏差： $r_2 \leftarrow \frac{r}{1-p_2^t}$
$\quad$ $\quad$ 计算更新： $\Delta_\theta=-\epsilon \frac{s_2}{\sqrt{r_2+\delta}}\bigodot g$ (逐元素应用操作)
$\quad$ $\quad$ 应用更新： $\theta \leftarrow \theta + \Delta\theta$
$\quad$ end while

5.4.3 讲解

“Adam"这个名字派生自短语"adaptive moments”。早期算法背景下，它也许是最好被看作结合 $R M S P r o p$ 和具有一些重要区别的动量的变种。首先，在Adam中，动量直接并入了梯度一阶矩(指数加权)的估计。将动量加入RMSProp最直观的方法是将动量应用于缩放后的梯度。结合缩放的动量使用没有明确的理论动机。其次，Adam包括偏置修正，修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩的估计。RMSProp也采用了(非中心的)二阶矩估计，然而缺失了修正因子。因此，不像Adam，RMSProp二阶矩估计可能在训练初期有很高的偏置。Adam通常被认为对超参数的选择相当鲁棒，尽管学习率有时需要从建议的默认修改。

6 总结——选择正确的优化算法

在本文中，我们讨论了一系列算法，通过自适应每个模型参数的学习率以解决优化深度模型中的难题。此时，一个自然的问题是：该选择哪种算法呢？
遗憾的是，目前在这一点上没有达成共识。Schaul et al展示了许多优化算法在大量学习任务上极具价值的比较。虽然结果表明，据欧自适应学习率(以RMSProp和AdaDelta为代表)得算法族表现得相当鲁棒，不分伯仲，但没有那个算法能够脱颖而出。
目前，最流行并且使用很高的优化算法包括SGD、具动量的SGD、RMSProp、具动量的RMSProp、AdaDelta和Adam。此时，选择那一个算法似乎主要取决于使用者对算法的熟悉程度(以便调节超参数)。

参考文献：
1 统计学习方法清华大学出版社
2 深度学习人民邮电出版社