【机器学习】深度学习自适应学习率

最新推荐文章于 2023-12-30 03:08:08 发布

郑壮强

最新推荐文章于 2023-12-30 03:08:08 发布

阅读量1.6k

点赞数

分类专栏：机器学习深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_18500245/article/details/95797475

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

深度学习

3 篇文章 0 订阅

订阅专栏

【机器学习】深度学习自适应学习率

SGD
momentum动量
nesterov动量
Adamgrad
Rmsprop
Adam(adaptive moments)

动量算法旨在加速学习速率。自适应学习率是为了平衡不同参数的学习速率。

SGD

$g=-\epsilon f'(\theta_k)$
$\theta_{k+1} \leftarrow \theta_k+g$

momentum动量

$g=\alpha g -\epsilon f'(\theta_k)$
$\theta_{k+1} \leftarrow \theta_k+g$
特点：相比于SGD，考虑了历史累计梯度。
优点：旨在加速学习，特别是高曲率、小但一致的梯度，或是带噪声的梯度。动量算法累积了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。
稳定时更新步长为 $\frac{\epsilon f'(\theta_k)}{1-\alpha}$

nesterov动量

$\leftarrow \alpha g - \epsilon f'(\theta_k+\alpha g)$
$\theta_{k+1} \leftarrow \theta_k+g$
特点：相比于momentum动量，在计算梯度之前先进行一次梯度更新
优点：在凸批量梯度的情况下，额外误差收敛速率从O(1/k)（k步后）改进到O(1/k^2)，但是在随机梯度的情况下，没有改进收敛率。所以建议LR等模型在Batch-SGD时优先考虑nesterov动量

Adamgrad

$g=-f'(\theta_k)$
$r = r+g^Tg$
$\theta_{k+1} \leftarrow \theta_k+\epsilon g/\sqrt r$
偏导大的参数学习率下降较快，偏导小的参数学习率下降相对较慢
效果：在参数空间中更为平缓的倾斜方向会取地更大的进步

Rmsprop

Adamgrad的累计梯度容易使得学习率较早的趋于0，使得学习停滞。
$g=-f'(\theta_k)$
$\alpha r+(1-\alpha)g^Tg$
$\theta_{k+1} \leftarrow \theta_k+\epsilon g/\sqrt r$
扩展：AdamDelta和Rmsprop只是自适应学习率修正项 $r$ ，故可以扩展到momentum动量和nesterov动量上。