向李宏毅学深度学习(进阶)#task02#Datawhale X 李宏毅苹果书 AI夏令营

在一般的梯度下降中，学习率（ $\eta$ ）是一个人为设定的固定超参数，相当于在梯度的方向指引下在误差表面向下迈出的一个个“步伐”，学习率的固定意味着“步伐”的固定。我们可以把误差表面想象成一片丘陵，充斥着局部最值与鞍点，如果“地势“平缓，梯度很小，那么我们需要一个较大的”步伐“来快速走出这片”平原“，如果”地势“陡峭，梯度较大，我们则需要较小的”步伐“，以保持梯度下降的稳定，防止震荡。以下是两种情况的直观理解：

学习率（”步伐“）太大引起的问题：

可以直观地看出学习率较大带来的影响，当梯度下降接近局部最值时，梯度下降会因为"步伐"太大而来回摇摆。书上有一张图片更真实的反应了这个现象：

损失表面上的”等高线“非常密集，损失函数的梯度很大，但是参数更新却在来回摇摆，就是因为学习率太大，”步伐“太长。

补：

学习率过大除了导致损失值在训练过程中剧烈波动外，还可能造成其他关键问题：

梯度爆炸：虽然现在已经有很成熟的应对方法，比如参数修剪等，这仍然是最严重的问题之一。学习率太大也是梯度爆炸产生的原因之一。
数值不稳定性：大的学习率可能会导致数值计算上的不稳定性，比如在参数更新时出现数值溢出。

学习率（”步伐“）太小引起的问题：

最直接的影响是训练速度慢，这也是书中强调的问题，书中同样用一张误差表面图真实反映了这个问题：

在减小了学习率后，振荡现象明显缓解，但是在BC间的”平原“地带，梯度过小+学习率过小导致参数更新速度极慢，出现了梯度消失现象。此时增加再多的训练次数也难以使之接近局部最小值，梯度下降很难训练。

补：

收敛速度慢只是学习率过小引起的最基础的问题，此外，还有其他一些应该被重视的问题：

容易陷入局部最小值：当局部最优值附近梯度很小时，学习率太小可能会导致模型在局部最优值附近徘徊，难以走出这些”坑“。
难以克服噪声：实际数据中可能存在噪声或异常值，小的学习率会使模型对噪声异常敏感
导致过拟合：小的学习率会导致模型过分细致的为了数据中的某一个波动调整参数，进而导致过拟合

自适应学习率（adaptive learning rate）的提出

鉴于以上问题，人们提出了”自适应学习率“的概念。原理很简单，在误差表面上梯度大、坡度大的”陡坡“，我们就减小学习率，让梯度下降稳定收敛：而梯度小、坡度小的”平原“，我们就增加学习率，增大步伐，加速参数更新。通过这样的方式，使学习率这一深度学习中算是最重要的超参得到灵活的调节。下面介绍几种经典方法。

AdaGrad

AdaGrad（Adaptive Gradient）是典型的自适应学习率方法，其能够根据梯度大小自动调整学习率。AdaGrad 可以做到梯度比较大的时候，学习率就减小，梯度比较小的时候，学习率就放大。

一般梯度下降更新参数 $\theta_{t}^{i}$ 的过程为：

$\theta_{t+1}^{i} \leftarrow \theta_{t}^{i} - \eta g_{t}^{i}$ ， $g_{t}^{i} = \left. \frac{\partial L}{\partial \theta^{i}} \right|_{\theta = \theta_{t}}$

$g_t^i$ 表示第 $t$ 次迭代参数 $\theta^i$ 对L的微分，这里学习率固定不变

adagrad就是让学习率 $\eta$ 变得参数相关，将 $\eta$ 改为 $\frac{\eta}{\sigma_{t}^{i}}$ ，得：

$\theta_{t+1}^{i} \leftarrow \theta_{t}^{i} - \frac{\eta}{\sigma_{t}^{i}} g_{t}^{i}$

$\sigma_t^i$ 与迭代次数 $t$ ，参数 $i$ 相关，意味着不同参数、不同迭代次数都将影响学习率

梯度均方根参数相关的adagrad

adagrad一种常见的参数相关的类型是算梯度的均方根。第一次参数更新过程为：

$\theta_{1}^{i} \leftarrow \theta_{0}^{i} - \frac{\eta}{\sigma_{0}^{i}} g_{0}^{i}$

$\theta_0^i$ 是初始化参数， $\sigma_0^i$ 的计算过程为：

$\sigma_{0}^{i} = \sqrt{(g_{0}^{i})^2} = |g_{0}^{i}|$

将 $\sigma_0^i$ 带入得 $\frac{g_{0}^{i}}{\sigma_{0}^{i}}$ 为1，说明第一次参数更新只与 $\eta$ 的大小有关，梯度只控制下降方向

第二次参数更新过程为：

$\theta_{2}^{i} \leftarrow \theta_{1}^{i} - \frac{\eta}{\sigma_{1}^{i}} g_{1}^{i}$

$\sigma_1^i$ 是过去所有梯度的均方根，即为：

$\sigma_{1}^{i} = \sqrt{\frac{1}{2} \left[ (g_{0}^{i})^2 + (g_{1}^{i})^2 \right]}$

...........................

第 $(t+1)$ 次更新参数时，即：

$\theta_{t+1}^{i} \leftarrow \theta_{t}^{i} - \frac{\eta}{\sigma_{t}^{i}} g_{t}^{i} \quad$ ， $\sigma_{t}^{i} = \sqrt{\frac{1}{t+1} \sum_{i=0}^{t} (g_{i}^{i})^2}$

我们认为 $\frac{\eta}{\sigma_{t}^{i}} g_{t}^{i}$ 为新的学习率，用以更新参数

上图直观地对比了不同梯度下的学习率，可以看出在均方根相关的adagrad下，学习率与梯度累积的均方根之间存在反向关系。

拓：

AdaGrad的学习率衰减问题

adagrad的一个主要问题是它的学习率随着参数更新次数的增加而衰减，以上述rms相关的adagrad举例，随着梯度累积的均方根的增加，每个参数的学习率不断降低，这可能导致在训练后期，模型训练的学习率变得非常小，算法收敛速度极慢，难以达到全局最优。特别的，在处理序列数据（如自然语言处理中的长序列数据）时，adagrad的性能会受到影响，因为难以处理大量更新步骤

AdaGrad的对初始学习率敏感问题

通常一般形式的adagrad的参数更新公式为：

$\theta_{t+1}^{i} = \theta_{t}^{i} - \frac{\eta}{\sqrt{G_{t}^{i} + \epsilon}} g_{t}^{i}$

$G_t^i$ 是针对参数 $\theta^i$ 从开始到第 $t$ 轮迭代时累积的梯度平方和:

$G_{t}^{i} = \sum_{k=0}^{t} \left(g_{k}^{i}\right)^2$

由上式可看出，初始学习率 $\eta$ 直接影响 $G_t^i$ 累积过程的速度。如果 $\eta$ 设置过高， $G_t^i$ 会迅速增大，从而使学习率快速衰减，使得模型在训练后期几乎停止学习，难以收敛。反之，如果 $\eta$ 设置过低，尽管学习率的衰减问题可以缓解，但整个训练过程的收敛速度可能会变得过慢。

总结

Adagrad自从被提出以来，在优化算法中举足轻重，尤其是应用在处理稀疏和高维数据的机器学习任务中。它的自适应学习率、简单易用的特性使之流行。尽管现在很多任务中它已不再是首选，在处理学习率衰减问题上基于AdaGrad的RMSProp，Adam等等表现更好，它依然是一个值得学习的合格的基准算法。

RMSProp

补：RMSProp产生的背景——指数加权移动平均（EMA）

EMA常用于时间序列处理和信号处理，它能平滑数据，强调最近的观测值，同时逐步调整最早观测值的影响，与简单移动平均（SMA）相比，EMA对新数据更敏感，适合捕捉快速变化的数据。

EMA的计算公式

对于一个序列 $x_1,x_2,x_3.........x_n$ , EMA在时间t的值可以递归地表示为：

$\text{EMA}_t = \gamma \cdot \text{EMA}_{t-1} + (1 - \gamma) \cdot x_t$

$EMA_t$ 表示在时间 $t$ 时的指数加权移动平均值。
$\gamma$ 是加权因子，取值在 [0,1) 之间，通常接近1（如0.9）。它决定了历史数据在当前平均值中的影响程度。
$x_t$ 是当前时间 $t$ 的数据点。

EMA的特性

EMA的当前值依赖当前数据点和过去的EMA值 $EMA_{t-1}$ ,使其能够捕捉数据的长期趋势，而加权因子 $\gamma$ 决定了这一历史依赖性。 $\gamma$ 值越大，则EMA对较早的数据更为敏感。

第二点是通过逐渐减小较早数据点的权重，通过逐步减小它们的影响，降低短期波动的影响，从而准确反应数据的整体变化趋势，达到平滑数据的效果。

RMSProp计算公式

RMSProp学习率的第一步与Adagrad相同，即：

$\sigma_{0}^{i} = \sqrt{(g_{0}^{i})^2} = |g_{0}^{i}|$

第二步为更新参数 $\theta_1^i$ , $\sigma_1^i$ （参数含义见AdaGrad）

$\theta_{2}^{i} \leftarrow \theta_{1}^{i} - \frac{\eta}{\sigma_{1}^{i}} g_{1}^{i} \quad \sigma_{1}^{i} = \sqrt{\alpha (\sigma_{0}^{i})^2 + (1 - \alpha) (g_{1}^{i})^2}$

将同样的操作继续下去：

$\theta_3^i \leftarrow \theta_2^i - \frac{\eta}{\sigma_2^i} g_2^i \quad \sigma_2^i = \sqrt{\alpha \left(\sigma_1^i\right)^2 + \left(1 - \alpha\right)\left(g_2^i\right)^2}$

..........................

$\theta_{t+1}^i \leftarrow \theta_t^i - \frac{\eta}{\sigma_t^i} g_t^i \quad \sigma_t^i = \sqrt{\alpha \left(\sigma_{t-1}^i\right)^2 + \left(1 - \alpha\right)\left(g_t^i\right)^2}$

其中 $0<\alpha<1$ , $\alpha$ 是一个可以调整的超参数。在AdaGrad里面，每一个参数过去产生的梯度都有相同的重要性；而这里可以自行调整当前梯度的重要性。在第 $(t+1)$ 次参数更新时， $\sigma_t^i$ 的更新方程为：

$\sigma_t^i = \sqrt{\alpha \left(\sigma_{t-1}^i\right)^2 + \left(1 - \alpha\right)\left(g_t^i\right)^2}$

当 $\alpha$ 接近1使，过去的梯度比较重要，反之当前的梯度比较重要。

RMSProp参数更新示例

RMSProp 通过 $\alpha$ 可以决定， $g_t^i$ 相较于之前存在 $\sigma_t^i$ 里面的 $g_1^i,g_2^i........g_{t-1}^i$ 的重要性有多大。下图展示了一个误差表面：

AB间相对平坦，梯度很小，更新参数时学习率较大；进入BC段，AdaGrad反应较慢，而RMSProp通过减小 $\alpha$ ,增加现有梯度的影响，从而积极减小学习率；进入CD段，梯度又变小，这时通过增大 $\alpha$ ，增加之前看到的梯度的影响，达到增大学习率的目的。

拓：

RMSProp在深度学习中的应用案例

在图像分类任务中，卷积神经网络（CNN）由于擅长处理图像数据而广泛使用。然而，训练深度CNN时，常常会遇到梯度消失和梯度爆炸问题，尤其是在较深的网络结构中。RMSProp通过调整每个参数的学习率，有效减轻了这一问题。通过自动调整学习率，确保模型在训练过程中稳定收敛。

在处理序列数据，如文本、时间序列预测任务中，由于梯度的累积效应，传统的SGD在长序列训练中可能会导致不稳定的学习过程。通过应用RMSProp,稳定每一个时间步的梯度贡献，从而稳定模型训练。实验结果显示，在字符级文本生成任务中，使用RMSProp优化的LSTM模型比使用SGD更快地收敛，并且生成的文本更加连贯。

RMSProp对学习率的敏感性

尽管RMSProp能够自适应地调整学习率，但它对初始学习率的选择仍然非常敏感。如果学习率设置得太高，模型可能会出现不稳定的收敛，甚至完全不收敛；如果学习率太低，模型则可能会收敛得非常缓慢，导致训练时间显著增加。

由于RMSProp在处理学习率时并没有明确的全局准则，因此在实际应用中，通常需要通过实验来调整合适的学习率，这也会增加调参的复杂性。

RMSProp长期依赖问题

RMSProp利用EMA来平滑梯度的平方和，从而自适应调整学习率。然而，这种平滑技术引入了“长期记忆”的问题，即在长期训练过程中，旧的梯度信息可能会被过度保存，这可能会导致模型在面对新的数据分布时适应性变差。

在某些情况下，RMSProp可能会表现出较慢的响应速度，特别是在模型需要快速适应新的趋势或突然变化时。

总结

尽管RMSProp是一种非常有效的优化算法，仍具有一些固有局限性，在实际应用中时需要仔细调整学习率，可能需要结合其他优化算法一起使用。在更复杂的场景下，Adam算法可能更为适用。

Adam

最常用的优化的策略或者优化器（optimizer）是Adam（Adaptive moment estimation）。Adam 可以看作 RMSprop 加上动量，其使用动量作为参数更新方向，并且能够自适应调整学习率。PyTorch 里面已经写好了 Adam 优化器，这个优化器里面有一些超参数需要人为决定，但是往往用 PyTorch 预设的参数就足够好了。