深度学习优化器个人经验汇总

big-dataa

已于 2022-04-03 21:05:53 修改

阅读量2.6k

点赞数 1

文章标签： python 算法深度学习神经网络

于 2022-04-03 21:04:43 首次发布

本文链接：https://blog.csdn.net/qq_42822363/article/details/123943492

版权

参考：https://zhuanlan.zhihu.com/p/32230623
仅用作个人记录

通用公式

$g_t = \triangledown f(w_t) \qquad \tiny{根据loss计算出的梯度值} \\ \normalsize{m_t = \phi (g_1, g_2, ..., g_t)} \qquad \tiny{根据过去梯度惯性和当前梯度算出的一阶动量} \\ \normalsize{V_t = \varphi (g_1, g_2, ..., g_t)} \qquad \tiny{根据过去梯度和当前梯度算出的二阶动量} \\ \normalsize{\eta_t = \frac{\alpha}{\sqrt{V_t}}*m_t} \qquad \tiny{根据一阶和二阶动量以及学习率\alpha计算需要更新的梯度} \\ \normalsize{w_{t+1} = w_t - \eta_t} \qquad \tiny{更新梯度}$

传统SGD优化器：不考虑一阶动量和二阶动量，直接根据当前梯度优化参数

$m_t = g_t, \quad V_t=1, \quad \eta_t = \alpha * g_t, \quad w_{t+1} = w_t - \eta_t$

缺点：没有考虑以往梯度的惯性，梯度下降速度慢。且容易陷入局部最优解

SGDM：加入一阶动量moment（各个时刻梯度方向的移动平均值）

$m_t = \beta_1*m_{t-1} + (1-\beta_1)*g_t, \; \beta_1=0.9$

特性：可以看到当前迭代的梯度下降绝大部分依托于以往的梯度惯性，额外考虑了些当前的梯度方向。
缺点：因额外增加了以往的惯性，容易导致梯度下降过猛导致震荡

SGD with NAG(nesterov accelerated gradient)，为了防止梯度下降过猛，按照上一迭代的梯度下降作为参考来预测下一迭代的梯度，并将其加入到通用式①来计算当前迭代的梯度

$g_t = \triangledown f(w_t - \frac{\alpha}{\sqrt{V_t}}*m_{t-1})$

以上SGD只考虑了一阶动量，并且针对于所有参数等学习率看待。然而我们希望对经常更新的参数赋予更小的学习率，因为已经获得了大量的只是来更新这些参数。对于不常更新的参数，我们希望获得更多的信息来更新，因此希望有更大的学习率。因此我们希望能够自适应的来调整学习率更新模型参数，这个可以通过二阶动量来解决。

Adagrad

$V_t=\sum_{\tau=1}^{t} g_{\tau}^2, \quad \eta_t=\frac{\alpha}{V_t}*m_t$
$V_t$ 对于经常更新的 $g_t$ 会更大，因此学习率会自动减小。然而由于 $V_t$ 是单调递增函数，因此有可能使得学习率迅速下降接近于0，过早结束训练。

Rmsprop：上述的 $V_t$ 是过去所有梯度的平方和，为了解决过早结束训练的问题，我们通过动量移动平均的方式，只关注过去一段时间的梯度来计算二阶动量

$V_t = \beta_2 * V_{t-1} + (1-\beta_2) * V_t, \quad \beta_2=0.999$

Adam：同时考虑一阶动量和二阶动量，自适应更新参数

$m_t = \beta_1*m_{t-1} + (1-\beta_1)*g_t, \; \beta_1=0.9 \\ V_t = \beta_2 * V_{t-1} + (1-\beta_2) * V_t, \quad \beta_2=0.999, \\ w_{t+1} = w_t - \frac{\alpha}{\sqrt{V_t}}*m_t$
初始化:
$m_0 = 0, V_0 = 0$
然而，按照上述计算公式，训练初期梯度都接近于0，不利于训练，所以需要对梯度进行修正：
$\widetilde{m_t} = \frac{m_t}{1-\beta_1^t}, \\ \widetilde{V_t} = \frac{V_t}{1-\beta_2^t}$

Nadam：Adam + NaG

big-dataa

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化器个人经验汇总

通用公式gt=▽f(wt)根据loss计算出的梯度值mt=ϕ(g1,g2,...,gt)根据过去梯度惯性和当前梯度算出的一阶动量Vt=φ(g1,g2,...,gt)根据过去梯度和当前梯度算出的二阶动量ηt=αVt∗mt根据一阶和二阶动量以及学习率α计算需要更新的梯度wt+1=wt−ηt更新梯度g_t = \triangledown f(w_t) \qquad \tiny{根据loss计算出的梯度值} \\\normalsize{m_t = \phi (g_1, g_2, ..., g_t)} \.
复制链接

扫一扫