人工智能/机器学习基础知识——优化器

最新推荐文章于 2024-07-14 14:18:36 发布

ZreviaX

最新推荐文章于 2024-07-14 14:18:36 发布

阅读量1.2k

点赞数 36

分类专栏：人工智能/机器学习基础知识文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/WindGrin_/article/details/137617557

版权

人工智能/机器学习基础知识专栏收录该内容

31 篇文章 0 订阅

订阅专栏

Optimizer（优化器）

CSDN

博客园

机器学习中，有很多优化方法来试图寻找模型的最优解，如一般的梯度下降法等等，优化器实现了不同的求解最优的算法

梯度下降法

梯度下降法是最基本的一类优化器的算法，主要分为三种：标准梯度下降法(GD, Gradient Descent)，随机梯度下降法(SGD, Stochastic Gradient Descent)以及批量梯度下降法(BGD, Batch Gradient Descent)。

GD（Gradient Descent）

标准梯度下降法

算法核心公式：
$w_i = w_i - α\frac{∂L(w_1,w_2,w_3,...,w_n)}{∂w_i}$
其中 $w_i$ 为更新的参数， $L(w_1,w_2,w_3,...,w_n)$ 为损失函数， $α$ 为学习率
标准梯度下降法需要对每一个样本都应用上述公式，训练速度慢，而且容易陷入局部最优解。

BGD（Batch Gradient Descent）

批量梯度下降法

算法核心公式：
$w_i = w_i - α\sum\limits_{k=1}^{m}\frac{∂L_{m_k}(w_1,w_2,w_3,...,w_n)}{∂w_i}$
其中 $w_i$ 为更新的参数， $L_{m_k}(w_1,w_2,w_3,...,w_n)$ 为某批样本中第 $k$ 个样本的损失， $α$ 为学习率， $m$ 为某批样本的总数。
批量梯度下降法对每一批样本进行一次参数更新，但是每一个样本的梯度都需要计算，最后累积一次性更新，而不是一个样本算一次梯度再更新一次参数。（注意这里的梯度是累积和，并不是平均和）

SGD（Stochastic Gradient Descent）

随机梯度下降法

算法核心公式：
$w_i = w_i - α\frac{∂L_{m_k}(w_1,w_2,w_3,...,w_n)}{∂w_i}$
其中 $w_i$ 为更新的参数， $L_{m_k}(w_1,w_2,w_3,...,w_n)$ 为某批样本中第 $k$ 个样本的损失， $α$ 为学习率， $m$ 为某批样本的总数。
随机梯度下降法从某批样本中随机挑选一个样本进行计算梯度以及参数更新，一批样本只进行一次梯度计算与一次参数更新。
随机梯度下降法会引入噪声，使得权值更新的方向不一定正确。

动量优化法（Momentum Optimization）

动量优化法是在梯度下降法的基础上进行改变的，具有加速梯度下降的作用。主要分为两种：标准动量优化法（Momentum）、牛顿加速梯度法（NAG，Nesterov Accelerated Gradient）。

Momentum

标准动量优化法，基于SGD改进而来

算法核心公式：
$w_i = w_i - v_t$
$v_t = γv_{t-1} + α\frac{∂L_{m_k}(w_1,w_2,w_3,...,w_n)}{∂w_i}$
其中 $w_i$ 为更新的参数， $L_{m_k}(w_1,w_2,w_3,...,w_n)$ 为某批样本中第 $k$ 个样本的损失， $α$ 为学习率， $m$ 为某批样本的总数， $γ$ 为动量的大小（超参数，一般取0.9）， $v_t$ 表示当前批次积攒的加速度， $v_{t-1}$ 表示上一次迭代（批次）积攒的加速度。
Momentum主要解决了SGD的噪声与收敛过程中在极值点来回摆动比较大的问题。
可以理解为动量这一概念起到了一定的加速与刹车作用：在从较大的损失值逼近极值点的过程中起到了加速作用（因为有上一次批次样本的梯度作加成），在越过极值点的时候起到了刹车作用（越过极值点后紧跟的下一次参数更新时，上一次的动量与本次梯度的符号相反，造成本次加速度的大小被抵消了一部分）。

NAG（Nesterov Accelerated Gradient）

牛顿加速梯度法，是Momentum动量算法的变种

算法核心公式：
$w_i = w_i - v_t$
$v_t = γv_{t-1} + α\frac{∂L_{m_k}((w_1,w_2,w_3,...,w_n) - γv_{t-1})}{∂w_i}$
其中 $w_i$ 为更新的参数， $L_{m_k}((w_1,w_2,w_3,...,w_n) - γv_{t-1})$ 为某批样本中第 $k$ 个样本的损失， $α$ 为学习率， $m$ 为某批样本的总数， $γ$ 为动量的大小（超参数，一般取0.9）， $v_t$ 表示当前批次积攒的加速度， $v_{t-1}$ 表示上一次迭代（批次）积攒的加速度。

在这里插入图片描述

如图， $L_{m_k}((w_1,w_2,w_3,...,w_n) - γv_{t-1})$ 可理解为试探性迈出的下一步：用上一次迭代的动量 $γv_{t-1}$ 去试探性更新模型参数（只是为了计算需要临时更新）。这样一来相当于可以用当前的样本“预测”到下一次迭代时的梯度大小以及正负情况，然后与上一次迭代时的动量相加用于更新参数。
NAG相比Momentum，“加速”作用相差不大，而“刹车”的作用比Momentum要好。NAG可以在还没跃过极值点时就试探性的预测出前方存在极值点并进行一定程度的数值正负抵消（如上图两种情况），而Momentum只能在跃过极值点后进行“刹车”。
NAG内部可以有随机梯度下降与批量梯度下降两种更新子规则，批量梯度下降效果更好。（公式展示的是随机梯度下降）

自适应学习率优化法

自适应学习率优化算法针对于机器学习模型的学习率。传统的优化算法要么将学习率设置为常数要么根据训练次数调节学习率，极大忽视了学习率其他变化的可能性。然而，学习率对模型的性能有着显著的影响，因此需要采取一些策略来想办法更新学习率，从而提高训练速度。目前的自适应学习率优化算法主要有：AdaGrad，RMSProp，Adam以及AdaDelta。

在标准的梯度下降法中，每个参数在每次迭代时都使用相同的学习率，由于每个参数的维度上收敛速度都不相同，因此自适应学习率优化法根据不同参数的收敛情况分别设置学习率。

AdaGrad

AdaGrad。Adagrad算法能够在训练中自动的对学习率进行调整，对于出现频率较低参数采用较大的α更新；相反，对于出现频率较高的参数采用较小的α更新。

算法核心公式：
$w_i = w_i - \frac{α}{\sqrt{G_{t,ii} + ϵ}}·\frac{∂L(w_1,w_2,w_3,...,w_n)}{∂w_i}$
其中 $w_i$ 为更新的参数， $L(w_1,w_2,w_3,...,w_n)$ 为损失函数， $α$ 为学习率， $G_t$ 为 $n$ 阶对角矩阵（n为模型参数总数）， $G_{t,ii}$ 为对角矩阵 $G_t$ 第 $i$ 行第 $i$ 列的值， $ϵ$ 是平滑项（数值很小，为了避免分母为0）。
AdaGrad算法是将模型中每一个参数的每一次迭代的梯度取平方累加后存在对角矩阵 $G_t$ 第 $i$ 行第 $i$ 列的位置上，然后在每次参数更新时，用学习率除以该参数的梯度平方累加和的开方，以实现学习率的动态更新。
AdaGrad算法适合处理数据稀疏或者分布不均衡的数据集。
AdaGrad算法缺点在于随着迭代次数增加，学习率会越来越小，最终会趋于0。

RMSProp

RMSProp算法改进了AdaGrad算法的暴力平方累加梯度，增加了一个衰减系数来控制历史信息获取的多少

算法核心公式：
$g_t = \frac{∂L(w_1,w_2,w_3,...,w_n)}{∂w_i}$
$E[g^2]_t = ρE[g^2]_{t-1} + (1-ρ)g_t^2$
$w_i = w_i - \frac{α}{\sqrt{E[g^2]_t + ϵ}}·g_t$
其中 $w_i$ 为更新的参数， $L(w_1,w_2,w_3,...,w_n)$ 为损失函数， $α$ 为学习率， $g_t$ 为本次迭代梯度， $E[g^2]_t$ 表示前 $t$ 次迭代的（某个参数的）梯度平方和的加权平均， $ρ$ 为衰减系数（一般取0.9）， $ϵ$ 是平滑项（数值很小，为了避免分母为0）。
RMSProp使用 $ρ$ 衰减系数进行指数衰减，重点考虑离本次迭代比较近的几次迭代的梯度信息，相当于只保留过去一定时间内的梯度信息。可以这样理解，对第一次迭代的 $E[g^2]_1$ ，随着迭代次数不断增加，它会不断的乘以衰减系数 $ρ$ ，假设到了第k次迭代时，最先开始的 $E[g^2]_1$ 的值在当前迭代的 $E[g^2]_k$ 中就变为了 $E[g^2]_1 * ρ^k$ 这就是RMSProp算法中的核心概念——指数衰减。
正是有了指数衰减与梯度平方和的加权平均，RMSProp算法解决了AdaGrad算法训练时学习率越来越低的问题，而且与AdaGrad一样能自适应调节学习率。
RMSProp和AdaGrad的作用都是在参数空间更为平缓的方向，会取得更大的进步（因为平缓，所以历史梯度平方和较小，对应学习下降的幅度较小），并且能够使得陡峭的方向变得平缓，从而加快训练速度。
RMSProp算法在经验上已经被证明是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。

AdaDelta

Paper : ADADELTA: AN ADAPTIVE LEARNING RATE METHOD

AdaDelta是对AdaGrad的改进

算法核心公式：
$g_t = \frac{∂L(w_1,w_2,w_3,...,w_n)}{∂w_i}$
$E[g^2]_t = ρE[g^2]_{t-1} + (1-ρ)g_t^2$
$RMS[g]_t = \sqrt{E[g^2]_t + ϵ}$
$Δw_i = -\frac{RMS[Δw_i]_{t-1}}{RMS[g]_t}g_t$
$w_i = w_i + Δw_i$
其中 $w_i$ 为更新的参数， $L(w_1,w_2,w_3,...,w_n)$ 为损失函数， $g_t$ 为本次迭代梯度， $E[g^2]_t$ 表示前 $t$ 次迭代的（某个参数的）梯度平方和的加权平均， $ρ$ 为衰减系数（一般取0.9）， $Δw_i$ 为参数变化量（步长）， $RMS$ 代表梯度的均方根， $ϵ$ 是平滑项（数值很小，为了避免分母为0）。
AdaDelta算法不需要设置全局学习率。其余细节前述算法均有详细解释。

Adam

Paper : ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION

Adam实际上是将Momentum与RMSProp结合起来的算法。除了像AdaDelta和RMSProp一样存储了过去梯度的平方的指数衰减平均值，也像Momentum一样保持了过去梯度的指数衰减平均值。

算法核心公式：
$g_t = \frac{∂L(w_1,w_2,w_3,...,w_n)}{∂w_i}$
$m_t = β_1m_{t-1} + (1 - β_1)g_t$
$v_t = β_2v_{t-1} + (1 - β_2)g_t^2$
$\hat{m_t} = \frac{m_t}{1 - β_1^t}$
$\hat{v_t} = \frac{v_t}{1 - β_2^t}$
$w_i = w_i - \frac{α}{\sqrt{\hat{v_t}} + ϵ}\hat{m_t}$
其中 $w_i$ 为更新的参数， $L(w_1,w_2,w_3,...,w_n)$ 为损失函数， $g_t$ 为本次迭代梯度， $β_1$ 、 $β_2$ 为衰减系数（一般取0.9和0.999）， $m_t$ 、 $v_t$ 为过去梯度与过去梯度平方的指数衰减平均值， $\hat{m_t}$ 、 $\hat{v_t}$ 为偏差校正后的修正值， $ϵ$ 是平滑项（数值很小，为了避免分母为0）。
之所以要对 $m_t$ 、 $v_t$ 作修正，是因为如果 $m_t$ 、 $v_t$ 被初始化为零向量，那么它们就会向0偏置，所以做了偏差校正，通过计算偏差校正后的 $m_t$ 、 $v_t$ 来抵消偏差。
Adam借鉴了RMSProp的指数衰减思想，将 $\hat{v_t}$ 用于动态调整各参数的学习率。同时Adam也借鉴了Momentum中动量加速下降的思想，并与指数衰减相结合，将 $\hat{m_t}$ 当作本次的参数更新值。