优化算法_梯度下降（SGD, AdaGrad, RMSProp, Adam）

最新推荐文章于 2024-04-07 02:38:26 发布

w_suixin

最新推荐文章于 2024-04-07 02:38:26 发布

阅读量269

点赞数

本文链接：https://blog.csdn.net/w_suixin/article/details/107862257

版权

1. 梯度下降和随机梯度下降

1.1 一阶梯度下降

一维函数泰勒展开为：
$f(x+\epsilon) \approx f(x)+\epsilon f^\prime(x)$
将 $\epsilon$ 替换为 $-\eta f^\prime(x)$ 得到：
$\eta f^\prime(x)) \approx f(x)-\eta f^\prime(x)^2$
如果导数 $f^\prime (x) \neq0$ ,那么 $\eta f^ \prime(x)^2>0$ , 所以
$f(x-\eta f^ \prime (x)) <=f(x)$
通过使用
$x\leftarrow x-\eta f^ \prime(x)$
更新 $x$ ,函数 $f (x)$ 的值会降低。

1.2 学习率

上述梯度下降算法中 $\eta$ 叫做学习率，是一个超参数。太小会导致更新缓慢，太大会导致震荡不收敛。

1.3其他

多维梯度下降：
目标函数的输入是 $x=[x_1,x_2...x_d]^T$ ，目标函数f(x)的梯度是一个由 $d$ 个偏导数组成的向量：
$\nabla _xf(x)=[\frac {\partial f( x)}{\partial x_1}, \frac {\partial f( x)}{\partial x_2},...,\frac {\partial f( x)}{\partial x_d} ]^T$
更新方式变为：
$x\leftarrow x-\eta \nabla f(x)$
随机梯度下降：
由于深度学习任务里，数据量很大，如果使用所有数据，梯度下降每次迭代的计算开销很高。随机梯度下降在每次迭代时，随机均匀采样一个样本用来计算。

2. 动量法

问题：
目标函数为 $f(x) =0.1x_1^2+2x_2^2$ 时，迭代时梯度下降可能会震荡下降或者发散。
动量法：
在第 $t$ 次迭代时，随机梯度为 $g_t$ ，则：
$v_t \leftarrow \gamma v_{t-1} + \eta _tg_t$
$x_t \leftarrow x_{t-1}-v_t$

说明：
选择比较小的学习率，可以保障自变量在梯度较大的维度上不发散，但是会导致在梯度较小的维度上迭代过慢。

3. AdaGrad算法

目标函数为 $f(x) =0.1x_1^2+2x_2^2$ 时，由于 $x_1$ 和 $x_2$ 使用了相同的学习率，所以会产生震荡。
AdaGrad根据自变量在每个维度的梯度值的大小调整各个维度上的学习率，从而避免统一的学习率难以适应所有维度的问题。
AdaGrad:
在第 $t$ 次迭代时，所有随机梯度 $g_t$ 按元素的平方累加到 $S_t$ :
$s_t \leftarrow s_{t-1}+g_t\bigodot g_t$
$x_t \leftarrow x_{t-1}-\frac{\eta}{\sqrt{s_t+\epsilon}} {\bigodot g_t}$
说明:
由于 $s_t$ 的增大，学习率将不断衰减，可能后面下降缓慢。

每个自变量 $x_t$ 拥有自己的学习率。

4. RMSProp算法

由于AdaGrad在后期可能由于学习率过小，找不到有用的解，RMSProp算法对此进行了优化。
RMSProp:
不同于AdaGrad算法，RMSProp将梯度按元素平方做指数加权移动平均：
$s_t \leftarrow \gamma s_{t-1}+(1-\gamma)g_t \bigodot g_t$
$x_t \leftarrow x_{t-1}-\frac{\eta}{\sqrt{s_t+\epsilon}}\bigodot g_t$

5. Adam算法

在RMSProp算法上进一步进行优化
Adam算法:
首先对随机梯度 $g_t$ 进行指数加权平均，得到 $t$ 时刻的动量：
$v_t \leftarrow \beta _1 v_{t-1}+(1-\beta _1)g_t$
再和RMSProp中一样，将 $g_t$ 按指数加权平均得到 $s_t$
$s_t \leftarrow \beta _2 s_{t-1}+(1-\beta _2)g_t \bigodot g_t$
由于 $\beta_1 =0.9$ 时， $v_1=0.1g_1$ , $v_1$ 就会比较小，需要做一下修正：
$\hat{v_t} \leftarrow \frac{v_t}{1-\beta^ \prime _1}$
$\hat{s_t} \leftarrow \frac{s_t}{1-\beta^ \prime _2}$
则：
$g^\prime _t \leftarrow \frac{\eta\hat{v_t}}{\sqrt{\hat{s_t}} +\epsilon}$
$x_t \leftarrow x_{t-1}-g^ \prime _t$