深度学习中常见的优化器及其优化思路

本文链接：https://blog.csdn.net/qq_42440990/article/details/115611273

首先，深度学习优化算法经历了：BGD→SGD→SGDM→NAG→AdaGrad→AdaDelta→Adam→Nadam

BGD

批量梯度下降，根据整个训练集计算梯度进行梯度下降。

公式： $θ = θ-η△_θJ(θ)$ ，其中J(θ)是根据整个训练集计算出来的损失。

优点：

当损失函数是凸函数时，BGD能收敛到全局最优，非凸时只能局部最优。

缺点：

每次根据全部数据来计算梯度，速度较慢。
BGD不能够在线训练，不能根据新数据来实时更新模型。

SGD

随机梯度下降。和BGD相反，SGD每次只使用一个训练样本来进行梯度更新。

公式： $θ = θ-η△_θJ(θ:x^{(i)}:y^{(i)})$ ,其中 $J(θ:x^{(i)}:y^{(i)})$ 是根据样本 $x^{(i)}:y^{(i)})$ 计算出来的损失。

优点：

SGD每次只根据一个样本计算梯度，速度较快。
SGD可以根据新样本实时地更新模型。

缺点：

SGD在优化过程中损失震荡比较严重。

Momentum（引入了一阶动量）

假设模型在时间t的梯度为 $△ J (θ)$ ，则Momentum的梯度更新方法为： $V_t=βV_{t-1}+(1-β)△J(θ)$ $θ=θ-αV_t$
其中 $V_t$ 是模型前 $\frac{1}{1+β}$ 步梯度的平均值，β通常为0.9，α为学习率。
在这里插入图片描述
优点：

Momentum引入了一阶动量，使用了Momentum的SGD梯度下降的过程更平滑，震荡更少，收敛也更快。

NAG

对Momentum进行了轻微的修改 $V_t=βV_{t-1}+(1-β)△J(θ-βV_{t-1})$ $θ=θ-αV_t$

也就是，在梯度更新之前看一下Momentum指向的方向，然后在Momentum指向的位置计算梯度并进行更新。

Adagrad（引入了二阶动量）

优化器命中包含Ada，其含义是Adaptive，代表“自适应”，自适应优化器时代来临。

在我们训练模型的初期我们的学习率一般比较大，因为这时我们的位置离最优点比较远；当训练快结束时，我们通常会降低学习率，因为训练快结束时我们离最优点比较近，这时使用大的学习率可能会跳过最优点。Adagrad 能使得参数的学习率在训练的过程中越来越小，公式如下： $θ-\frac{η}{\sqrt{\sum_{t}g^2+\epsilon}}g_t$
其中， $g_t$ 是模型在t时刻的梯度， $\sum_{t}g^2$ 是模型前t个时刻梯度的平方和， $\epsilon$ 一般为 $10^{-8}$ ,防止分母为0.
在训练过程中 $\sqrt{\sum_{t}g^2+\epsilon}$ 越来越大， $\frac{η}{\sqrt{\sum_{t}g^2+\epsilon}}$ 越来越小，所以lr越来越小， $η$ 通常为0.01。
优点：

自动调节参数的学习率。

缺点：

学习率下降会比较快，可能造成学习提早停止。

Adadelta

Adadelta是对Adagrad的改进，解决了Adagrad优化过程中lr减少导致训练停止的问题。

方法：
不再对过去的梯度平方进行累加，而是改用指数平均的方法进行计算。将 $\sum_{t}g^2$ 替换为 $(1-\gamma)\sum_{i=0}^tγ^ig^2$ (一阶一样，二阶引入了参数γ)
但此时仍然依赖全局学习率η，为了消除影响，定义新的指数平均方法： $E[Δθ^2]_t=γE[Δθ^2]_{t-1}+(1-γ)Δθ^2_t$
Adadelta 把 Adagrad 分母中的梯度平方和换成了梯度平方的指数加权平均，这使得 Adadelta 学习率的下降速度没有 Adagrad 那么快。

Adam

自适应矩估计，将Momentum和Adadelta结合的方法。
同时引入一阶动量和二阶动量。 $β_1$ 以及 $β_2$ 。
$m_t=β_1m_{t-1}+(1-β_1)g_t$ $v_t=β_2v_{t-1}+(1-β_2)g_t^2$
作者发现一阶动量和二阶动量在初始训练时很小，接近为0，因为β值很大，所以重新计算一个偏差来校正： $\hat{m_t}=\frac{m_t}{1-β_1^t}$ $\hat{v_t}=\frac{v_t}{1-β_2^t}$
其中， $β^t$ 代表t次方，所以刚开始训练时，通过除（1-β）就可以很好的修正lr，当epoch越大时候，分母就越接近1，又回到了原设计方程。 $β_1$ 默认为0.9， $β_2$ 为0.999， $\epsilon$ 为 $10^{-8}$ .