优化算法 - Adagrad、RMSprop、Adam - 梯度下降 - 自适应学习率

最新推荐文章于 2024-03-21 18:50:43 发布

GoWeiXH

最新推荐文章于 2024-03-21 18:50:43 发布

阅读量3.6k

点赞数 2

分类专栏：深度学习 (DL) 文章标签：自适应梯度下降 Adagrad RMSprop Adam 自适应学习率

本文链接：https://blog.csdn.net/weixin_37352167/article/details/90273820

版权

深度学习 (DL) 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

优化算法 - Adagrad、RMSprop、Adam - 梯度下降 - 自适应学习率

为了应对稀疏特征在训练过程中参数难以更新的问题，各位大牛们提出了自适应学习率的方法。下面就对这些优化算法进行一个学习总结。

Adagrad

Adagrad 的核心是加入了一个正则化因子，使得数据较为稀疏的特征的梯度变大，在数据较为稠密的特征的梯度减小，对于不同的参数自动改变梯度的大小。

普通 SGD 的更新公式为：

$θ_{t+1}^i = θ_t^i - μ·g_{t,θ^i}$

而在 Adagrad 中加入了正则化因子，更新公式为：

$θ_{t+1}^i = θ_t^i - (\frac{μ}{\sqrt{\sum_{j=1}^{t}g_{j,θ^i}^2+ε}})·g_{t,θ^i}$

其中，

$\sqrt{\sum_{j=1}^{t}g_{j,θ^i}^2+ε}$ 表示对 $θ^i$ 前 $t$ 次迭代的梯度的平方进行求和， $ε$ 表示一个无穷小量，为了防止分母为 0；

$θ_t^i$ 代表第 $i$ 个参数的第 $t$ 次迭代； $g_{t,θ^i}$ 代表参数 $θ_i$ 的第 $t$ 次迭代时的梯度；

此时学习率变为： $\frac{μ}{\sqrt{\sum_{j=1}^{t}g_{j,θ^i}^2+ε}}$ ，我们来看一下它是如何对学习速率进行调整的：

对于数据稀疏的特征来讲，参数每次迭代更新的梯度始终非常小，几乎为 0，那么之前轮次的梯度的和依然很小，当 $μ$ 除以一个很小的数时值会得到放大，那么此时他的学习速率就变大了。

对于数据稠密的特征来讲，参数每次迭代更新的梯度较大，那么之前轮次的梯度的和会较大，当 $μ$ 除以一个较大的数时值会得到缩小，那么此时他的学习速率就变小了。

（这种分母求和的形式实现了退火过程）。

所以他可以对于不同的参数以不同的学习速率进行更新，得到了自适应的效果。

但是它仍然存在问题，分母为前几次的累加和，那么在经过一定次数的迭代后分母的值会变的较大，不管是对于稀疏还是稠密的特征，它们的学习速率都会变得很小，会使得更新速度停滞，不得不提前结束训练。

为了解决这个问题，人们提出了 RMSprop 方法。
RMSprop

值得注意的是，RMSprop 与 AdaDelta 是同一种方法。

对于 Adagrad 的问题，RMSprop 将分母梯度累加的形式替换成了 RMS（Root Mean Square），即均方根。

均方根的增长速度要比梯度累加要慢，所以可以进行更多次的迭代，不至于早早结束训练。

RMSprop 的更新公式为：

$θ_{t+1}^i = θ_t^i - (\frac{μ}{\sqrt{E[g_{t,θ^i}^2]}+ε})·g_{t,θ^i}$

${\sqrt{E[g_{t,θ^i}^2]}+ε}$ 为新的正则化因子。

其中，

$\begin{aligned} E[g_{t,θ^i}^2]=&p·\frac{1}{t-1}·\sum_{j=1}^{t-1}g_{t-1,θ^i}^2+(1-p)·g_{t,θ^i}^2\\ =&p·E[g_{t-1,θ^i}^2]+(1-p)·g_{t,θ^i}^2 \end{aligned}$

当 $p = 0.5$ 时， $E[g_{t,θ^i}^2]$ 为前 $t$ 次梯度的均值。

$E[g_{t,θ^i}^2]$ 这种形式：对变量平方求期望的形式也称为二阶矩（对变量求期望的形式称为一阶矩）。

由此，分母的正则化因子不会过快的增长，所以又可以继续训练了。

从经验上来讲，参数可以如此设定： $ε = 0.001 ， p = 0.9$
Adam

接下来总结一下 Adam 方法，这种方法像是 RMSprop + Momentum。

式子中 $i$ 是为了区别不同的参数 $\theta_i$ .

$m_t^i = \beta_1m_{t-1}^i+(1-\beta_1)g_{t,\theta_i}$

$v_t^i = \beta_2v_{t-1}^i+(1-\beta_2)g_{t,\theta_i}^2$

$m_t^i$ 是一阶矩，是对 $E[g_{t,\theta_i}]$ 的估计，相当于 Momentum；

$v_t^i$ 是二阶矩，是对 $E[g_{t,\theta_i}^2]$ 的估计，相当于 RMSprop；

为了考虑 $m_t^i，v_t^i$ 在 0 初始值的情况，Adam 加入了偏差校正：

$\hat{m_t^i}=\frac{m_t^i}{1-\beta_1^t}$

$\hat{v_t^i}=\frac{v_t^i}{1-\beta_2^t}$

使得 $\hat{m_t^i}，\hat{v_t^i}$ 近似为对 $E[g_{t,\theta_i}]，E[g_{t,\theta_i}^2]$ 的无偏估计。

注意：这里的 $\beta_1^t，\beta_2^t$ 是指 $\beta_1，\beta_2$ 的 $t$ 次方！

最终 Adam 的更新公式为：

$θ_{t+1}^i = θ_t^i - (\frac{μ}{\sqrt{\hat{v_t^i}+ε}})·\hat{m_t^i}$

从经验上来讲，参数可以如此设定： $β_1=0.9，β_2=0.999，ϵ=10^{−8}$