optimizer for neural nets

最新推荐文章于 2024-09-04 14:42:40 发布

转行的炼丹师

最新推荐文章于 2024-09-04 14:42:40 发布

阅读量233

点赞数

文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/jose_m/article/details/105770571

版权

本文主要对Momentum和adaptive lr进行介绍

Pytorch实现Momentum的方式

Regular momentum
$p_{k+1}=\hat{\beta_k}p_k+\nabla f_i(w_k)$ $w_{k+1}=w_k-\gamma_kp_{k+1}$

$p$ 表示Momentum， $w$ 表示权重，在每次更新的时候，同时对 $p$ 和 $w$ 进行更新，其中 $\leq \hat{\beta_k}<1$ ，当 $\hat{\beta_k}$ 等于0的时候，等价于在直接做gradient descent。一般 $\hat{\beta_k}$ 可以取0.9或者0.99，但是要注意的是，在调 $\hat{\beta_k}$ 大小的时候，learning rate也需要做出对应的改变， $\hat{\beta_k}$ 增大， $l r$ 就需要适当减小。

Nesterov’s momentum
$p_{k+1}=\hat{\beta_k}p_k+\nabla f_i(w_k)$ $w_{k+1}=w_k-\gamma_k(\nabla f_i(w_k)+\hat{\beta_k}p_{k+1})$

个人觉得相对于Regular momentum来说，因为 $p_{k+2}=\hat{\beta_k}p_{k+1}+\nabla f_i(w_{k+1})$ ，而Nesterov版本更新 $w_k$ 的时候使用的是 $\nabla f_i(w_k)+\hat{\beta_k}p_{k+1}$ ，感觉上相当于是介于 $p_{k+1}$ 和 $p_{k+2}$ 之间，比 $p_{k+1}$ 往前多看了半步的感觉。

在训练神经网络的时候，带Momentum的版本一般会比普通SGD版本要快一些，但是Regular和Nesterov版本表现相似。除了它的速度之外，Momentum的版本具有noise smoothing的特性，对于有噪声的梯度，或者在某步更新的时候选取的样本点计算的梯度方向与global minimum的方向相差甚远，Momentum对其的矫正作用显著。

另外的Regular Momentum表示方式

$w_{k+1}=w_k-\gamma_k\nabla f_i(w_k)+\beta_k(w_k-w_{k-1})$

Adaptive methods

不再是网络中的每一个权重都具有相同的学习率，而是每一个权重有它特有的学习率

RMSprop

$v_{t+1}=\alpha v_t+(1-\alpha)\nabla f_i(w_t)^2$ $w_{t+1}=w_t-\gamma \frac{\nabla f_i(w_t)}{\sqrt{v_{t+1}}+\epsilon}$

上式中的 $f_i(w_t)^2$ 为element-wise的平方。

Adam：带Momentum的RMSprop

$m_{t+1}=\beta m_t +(1-\beta) \nabla f_i(w_t)$ $v_{t+1}=\alpha v_t+(1-\alpha)\nabla f_i(w_t)^2$ $w_{t+1}=w_t-\gamma \frac{m_t}{\sqrt{v_{t+1}}+\epsilon}$