深度模型中的优化 - 具有自适应学习速率的算法篇

绎岚科技

于 2024-07-28 08:00:00 发布

阅读量297

点赞数 10

分类专栏：深度学习算法机器学习文章标签：算法人工智能深度学习机器学习

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/140712552

版权

机器学习同时被 3 个专栏收录

81 篇文章 0 订阅

订阅专栏

深度学习

52 篇文章 0 订阅

订阅专栏

算法

22 篇文章 0 订阅

订阅专栏

序言

在深度学习中，模型优化是提升模型性能与收敛速度的关键环节。传统固定学习率的优化方法，如梯度下降法，往往难以适应复杂的训练过程，易导致学习率过大引发震荡或学习率过小导致收敛缓慢。为此，具有自适应学习速率的优化算法应运而生，它们能够根据训练过程中的梯度变化动态调整学习率，从而提高模型的训练效率和性能。

具有自适应学习速率的算法

神经网络研究员早就意识到学习速率肯定是难以设置的超参数之一，因为它对模型的性能有显著的影响。正如我们在数值计算篇 - 基于梯度的优化方法和神经网络优化中的挑战篇中探讨的，损失通常高度敏感于参数空间中的某些方向，而不敏感于其他。动量算法可以在一定程度缓解这些问题，但这样做的代价是引入了另一个超参数。在这种情况下，自然会问有没有其他方法。如果我们相信方向敏感度有些轴对齐，那么每个参数设置不同的学习速率，在整个学习过程中自动适应这些学习速率便是有道理的。
delta-bar-delta算法 ( $\text{Jacobs, 1988}$ )是一个早期的在训练时适应模型参数单独学习速率的启发式方法。该方法基于一个很简单的想法，如果损失对于某个给定模型参数的偏导保持相同的符号，那么学习速率应该增加。如果对于该参数的偏导变化了符号，那么学习速率应减小。当然，这种方法只能应用于全 $\text{batch}$ 优化中。
最近，一些增量（或者基于 $\text{minibatch}$ ）的算法被提出适应模型参数的学习速率。这节将简要回顾一些这种算法。

$\bold{AdaGrad}$

$\bold{AdaGrad}$ 算法，如算法1独立地适应所有模型参数的学习速率，放缩每个参数反比于其所有梯度历史平方值总和的平方根( $\text{Duchi et al., 2011}$ )。
- 具有损失最大偏导的参数相应地有一个快速下降的学习速率，而具有小偏导的参数在学习速率上有相对较小的下降。
- 净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。
在凸优化背景中， $\text{AdaGrad}$ 算法具有一些令人满意的理论性质。然而，经验上已经发现，对于训练深度神经网络模型而言，从训练开始时积累梯度平方会导致有效学习速率过早和过量的减小。 $\text{AdaGrad}$ 在某些深度学习模型上效果不错，但不是全部。

$\bold{RMSProp}$

$\bold{RMSProp}$ 算法(Hinton, 2012)修改 $\text{AdaGrad}$ 以在非凸设定下效果更好，改变梯度积累为指数加权的移动均值。
- $\text{AdaGrad}$ 旨在应用于凸问题时快速收敛。
- 当应用于非凸函数训练神经网络时，学习轨迹可能穿过了很多不同的结构，最终到达一个局部是凸碗的区域。
- $\text{AdaGrad}$ 根据平方梯度的整个历史收缩学习速率，可能使得学习速率在达到这样的凸结构前就变得太小了。
- $\text{RMSProp}$ 使用指数衰减平均以丢弃遥远过去的历史，使其能够在找到凸碗状结构后快速收敛，它就像一个初始化于该碗状结构的 $\text{AdaGrad}$ 算法实例。
$\text{RMSProp}$ 的标准形式如算法2结合 $\text{Nesterov}$ 动量的形式如算法3所示。相比于 $\text{AdaGrad}$ ，使用移动均值引入了一个新的超参数 $\rho$ ，控制移动平均的长度范围。
经验上， $\text{RMSProp}$ 已被证明是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。

$\bold{Adam}$

$\bold{Adam}$ ( $\text{Kingma and Ba, 2014}$ )是另一种学习速率自适应的优化算法，如算法4所示。” $\text{Adam}$ “这个名字派生自短语” $\text{Adaptive moments}$ “。
- 早期算法背景下，它也许最好被看作结合 $\text{RMSProp}$ 和具有一些重要区别的动量的变种。
- 首先，在 $\text{Adam}$ 中，动量直接并入了梯度一阶矩（带指数加权）的估计。将动量加入 $\text{RMSProp}$ 最直观的方法是应用动量于缩放后的梯度。结合重放缩的动量使用没有明确的理论动机。
- 其次， $\text{Adam}$ 包括负责原点初始化的一阶矩（动量项）和（非中心的）二阶矩的估计修正偏置（算法4）。 $\text{RMSProp}$ 也采用了（非中心的）二阶矩估计，然而缺失了修正因子。
- 因此，不像 $\text{Adam}$ ， $\text{RMSProp}$ 二阶矩估计可能在训练初期有很高的偏置。 $\text{Adam}$ 通常被认为对超参数的选择相当鲁棒，尽管学习速率有时需要从建议的默认修改。

选择正确的优化算法

我们讨论了一系列算法，通过自适应每个模型参数的学习速率以解决优化深度模型中的难题。此时，一个自然的问题是：该选择哪种算法呢？
遗憾的是，目前在这一点上没有达成共识。
- $\text{Schaul et al. (2014)}$ 展示了许多优化算法在大量学习任务上的价值比较。
- 虽然结果表明，具有自适应学习速率（由 $\text{RMSProp}$ 和 $\text{AdaDelta}$ 代表的算法族表现得相当鲁棒，但没有单一的算法表现为最好的。
目前，最流行的活跃使用的优化算法包括 $\text{SGD}$ ，具动量的 $\text{SGD}$ ， $\text{RMSProp}$ ，具动量的 $\text{RMSProp}$ ， $\text{AdaDelta}$ 和 $\text{Adam}$ 。
此时，选择哪一个算法似乎主要取决于使用者对算法的熟悉程度（以便调节超参数）。
算法1： $\text{AdaGrad}$ 算法

算法1描述： $\text{AdaGrad}$ 算法

伪代码：
$\bold{Require}$ : 全局学习速率 $\epsilon$
$\bold{Require}$ : 初始参数 $\boldsymbol{\theta}$
$\bold{Require}$ : 小常数 $\delta$ ，为了数值稳定大约设为 $10^{-7}$
$\quad$ 初始化梯度累积变量 $\boldsymbol{r}=0$
$\quad\bold{while}$ 没有达到停止准则 $\bold{do}$
$\qquad$ 从训练集中采包含 $m$ 个样本 $\{\boldsymbol{x}^{(i)},\dots,\boldsymbol{x}^{(m)}\}$ 的 $\text{minibatch}$ ，对应目标为 $\boldsymbol{y}^{(i)}$
$\qquad$ 计算梯度： $\boldsymbol{g}\gets\frac{1}{m}\nabla_{\boldsymbol{\theta}}\sum_i L(f(\boldsymbol{x}^{(i)};\boldsymbol{\theta}),\boldsymbol{y}^{(i)})$
$\qquad$ 累积平方梯度： $\boldsymbol{r}\gets\boldsymbol{r}+\boldsymbol{g}\odot\boldsymbol{g}$
$\qquad$ 计算更新： $\Delta\boldsymbol{\theta}\gets-\frac{\epsilon}{\delta+\sqrt{\boldsymbol{r}}}\odot\boldsymbol{g}$
$\qquad$ 应用更新： $\boldsymbol{\theta}\gets\boldsymbol{\theta}+\Delta\boldsymbol{\theta}$
$\quad\bold{end}$ $\bold{while}$
算法2： $\text{RMSProp}$ 算法

算法2描述： $\text{RMSProp}$ 算法

伪代码：
$\bold{Require}$ : 全局学习速率 $\epsilon$ ，衰减速率 $\rho$
$\bold{Require}$ : 初始参数 $\boldsymbol{\theta}$
$\bold{Require}$ : 小常数 $\delta$ ，为了数值稳定大约设为 $10^{-6}$ （用于被小数除时的数值稳定）
$\quad$ 初始化累积变量 $\boldsymbol{r}=0$
$\quad\bold{while}$ 没有达到停止准则 $\bold{do}$
$\qquad$ 从训练集中采包含 $m$ 个样本 $\{\boldsymbol{x}^{(i)},\dots,\boldsymbol{x}^{(m)}\}$ 的 $\text{minibatch}$ ，对应目标为 $\boldsymbol{y}^{(i)}$
$\qquad$ 计算梯度： $\boldsymbol{g}\gets\frac{1}{m}\nabla_{\boldsymbol{\theta}}\sum_i L(f(\boldsymbol{x}^{(i)};\boldsymbol{\theta}),\boldsymbol{y}^{(i)})$
$\qquad$ 累积平方梯度： $\boldsymbol{r}\gets\rho\boldsymbol{r}+(1-\rho)\boldsymbol{g}\odot\boldsymbol{g}$
$\qquad$ 计算参数更新： $\Delta\boldsymbol{\theta}=-\frac{\epsilon}{\delta+\sqrt{\boldsymbol{r}}}\odot\boldsymbol{g}$ （ $\frac{1}{\delta+\sqrt{\boldsymbol{r}}}$ 逐元素应用）
$\qquad$ 应用更新： $\boldsymbol{\theta}\gets\boldsymbol{\theta}+\Delta\boldsymbol{\theta}$
$\quad\bold{end}$ $\bold{while}$
算法3：使用 $\text{Nesterov}动量的$ $\text{RMSProp}$ 算法

算法3描述：使用 $\text{Nesterov}动量的$ $\text{RMSProp}$ 算法

伪代码：
$\bold{Require}$ : 全局学习速率 $\epsilon$ ，衰减速率 $\rho$ ，动量系数 $\alpha$
$\bold{Require}$ : 初始参数 $\boldsymbol{\theta}$ ，初始速度 $\boldsymbol{v}$
$\quad$ 初始化累积变量 $\boldsymbol{r}=0$
$\quad\bold{while}$ 没有达到停止准则 $\bold{do}$
$\qquad$ 从训练集中采包含 $m$ 个样本 $\{\boldsymbol{x}^{(i)},\dots,\boldsymbol{x}^{(m)}\}$ 的 $\text{minibatch}$ ，对应目标为 $\boldsymbol{y}^{(i)}$
$\qquad$ 计算临时更新： $\tilde{\theta}\gets\boldsymbol{\theta}+\alpha\boldsymbol{v}$
$\qquad$ 计算梯度： $\boldsymbol{g}\gets\frac{1}{m}\nabla_{\tilde{\boldsymbol{\theta}}}\sum_i L(f(\boldsymbol{x}^{(i)};\tilde{\boldsymbol{\theta}}),\boldsymbol{y}^{(i)})$
$\qquad$ 累积梯度： $\boldsymbol{r}\gets\rho\boldsymbol{r}+(1-\rho)\boldsymbol{g}\odot\boldsymbol{g}$
$\qquad$ 计算速度更新： $\boldsymbol{v}\gets\alpha\boldsymbol{v}-\frac{\epsilon}{\sqrt{\boldsymbol{r}}}\odot\boldsymbol{g}$ （ $\frac{1}{\sqrt{\boldsymbol{r}}}$ 逐元素应用）
$\qquad$ 应用更新： $\boldsymbol{\theta}\gets\boldsymbol{\theta}+\boldsymbol{v}$
$\quad\bold{end}$ $\bold{while}$
算法4： $\text{Adam}$ 算法

算法4描述： $\text{Adam}$ 算法

伪代码：
$\bold{Require}$ : 步长 $\epsilon$ （建议默认为： $0.001$ ）
$\bold{Require}$ : 矩估计的指数衰减速率， $\rho_1$ 和 $\rho_2$ 在区间 $\text{[0,1)}$ 内。（建议默认为：分别为 $0.9$ 和 $0.999$ ）
$\bold{Require}$ : 用于数值稳定的小常数 $\delta$ （建议默认为： $10^{-8}$ ）
$\bold{Require}$ : 初始参数 $\boldsymbol{\theta}$
$\quad$ 初始化一阶和二阶矩变量 $\boldsymbol{s}=0,\boldsymbol{r}=0$
$\quad$ 初始化时间步 $t = 0$
$\quad\bold{while}$ 没有达到停止准则 $\bold{do}$
$\qquad$ 从训练集中采包含 $m$ 个样本 $\{\boldsymbol{x}^{(i)},\dots,\boldsymbol{x}^{(m)}\}$ 的 $\text{minibatch}$ ，对应目标为 $\boldsymbol{y}^{(i)}$
$\qquad$ 计算梯度： $\boldsymbol{g}\gets\frac{1}{m}\nabla_{\boldsymbol{\theta}}\sum_i L(f(\boldsymbol{x}^{(i)};\boldsymbol{\theta}),\boldsymbol{y}^{(i)})$
$\qquad t\gets t+1$
$\qquad$ 更新有偏一阶矩估计： $\boldsymbol{s}\gets\rho_1\boldsymbol{s}+(1-\rho_1)\boldsymbol{g}$
$\qquad$ 更新有偏二阶矩估计： $\boldsymbol{r}\gets\rho_2\boldsymbol{r}+(1-\rho_2)\boldsymbol{g}\odot\boldsymbol{g}$
$\qquad$ 修正一阶矩的偏差： $\hat{\boldsymbol{s}}\gets\frac{\boldsymbol{s}}{1-\rho_1^t}$
$\qquad$ 修正二阶矩的偏差： $\hat{\boldsymbol{r}}\gets\frac{\boldsymbol{r}}{1-\rho_2^t}$
$\qquad$ 计算更新： $\Delta\boldsymbol{\theta}=-\epsilon\frac{\hat{\boldsymbol{s}}}{\sqrt{\hat{\boldsymbol{r}}}+\delta}$ （逐元素应用操作）
$\qquad$ 应用更新： $\boldsymbol{\theta}\gets\boldsymbol{\theta}+\Delta\boldsymbol{\theta}$
$\quad\bold{end}$ $\bold{while}$

总结

自适应学习速率优化算法，如 $\text{AdaGrad}$ 、 $\text{RMSprop}$ 、 $\text{Adam}$ 和 $\text{AdaDelta}$ 等，通过累积历史梯度信息，智能地调整每个参数的学习率。
- $\text{AdaGrad}$ 通过累积梯度平方的平均值调整学习率，适用于稀疏特征；
- $\text{RMSprop}$ 则通过指数加权平均的方式改进了 $\text{AdaGrad}$ ，解决了学习率衰减过快的问题；
- $\text{Adam}$ 结合了动量和自适应学习率，综合考虑梯度的一阶矩和二阶矩估计，具有较快的收敛速度和较好的性能；
- $\text{AdaDelta}$ 则无需手动设置学习率，通过移动平均梯度的二阶矩估计自动调整。
这些算法在深度学习中广泛应用，显著提升了模型的训练效果和性能，是深度学习优化领域的重要研究方向。
未来，随着深度学习技术的不断发展，自适应学习速率优化算法将持续演进，为深度学习模型的优化提供更加有力的支持。

往期内容回顾

应用数学与机器学习基础 - 数值计算篇
 深度模型中的优化 - 神经网络优化中的挑战篇

绎岚科技

关注

10
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度模型中的优化 - 具有自适应学习速率的算法篇

在深度学习中，模型优化是提升模型性能与收敛速度的关键环节。传统固定学习率的优化方法，如梯度下降法，往往难以适应复杂的训练过程，易导致学习率过大引发震荡或学习率过小导致收敛缓慢。为此，具有自适应学习速率的优化算法应运而生，它们能够根据训练过程中的梯度变化动态调整学习率，从而提高模型的训练效率和性能。
复制链接

扫一扫