人工智能/机器学习基础知识——学习率调整策略

ZreviaX

于 2024-04-11 00:49:39 发布

阅读量1.1k

点赞数 23

分类专栏：人工智能/机器学习基础知识文章标签：人工智能机器学习学习

本文链接：https://blog.csdn.net/WindGrin_/article/details/137617518

版权

31 篇文章 0 订阅

订阅专栏

本文详细介绍了学习率调整在深度学习中的重要性，包括线性缩放规则、不同类型的衰减策略（如分段常数、指数、余弦和周期性变化），以及学习率预热和带热重启的随机梯度下降方法，旨在提高训练稳定性和避免局部最优。

摘要由CSDN通过智能技术生成

学习率调整

Linear Scaling Rule

Learning Rate Decay

Piecewise Constant Decay（Step Decay）

人为设置没经过 $T_1, T_2, T_3 ...$ 次迭代，将学习率衰减为 ${\beta}_1, {\beta}_2, {\beta}_3 ...$

Inverse Time Decay

数学描述

$\alpha_{t}=\alpha_{0} \frac{1}{1+\beta \times t}$
其中 $\beta$ 为衰减率

Exponential Decay

Natural Exponential Decay

Cosine Decay

数学描述

$\alpha_{t}=\frac{1}{2} \alpha_{0}\left(1+\cos \left(\frac{t \pi}{T}\right)\right)$

在这里插入图片描述

Warm Up

Motivation
- 由于模型参数在训练开始时是随机初始化的，刚开始的几个Iteration一般梯度较大，若初始学习率较大，会使训练不稳定，难以收敛到全局最优
为了提高训练稳定性，我们可以在最初几轮迭代时，采用比较小的学习率，等梯度下降到一定程度后再恢复到初始的学习率，这种方法称为学习率预热（Learning Rate Warmup）
一个常用的学习率预热方法是逐渐预热（Gradual Warmup）。假设预热的迭代次数为 $T^{'}$ ，初始学习率为 ${\alpha}_0$ ，在Warmup过程中，每次更新的学习率为

$\alpha_{t}^{\prime}=\frac{t}{T^{\prime}} \alpha_{0}, \quad 1 \leq t \leq T^{\prime}$
当预热过程结束，再选择一种学习率衰减方法来逐渐降低学习率

Cyclic Learning Rate

让学习率在一个区间内周期性地增大和缩小
一种线性缩放的实现方式：三角循环学习率（Triangular Cyclic Learning Rate）
- 假设每个循环周期的长度相等都为 $2Δ T$ ，其中前 $Δ T$ 步为学习率线性增大阶段，后 $Δ T$ 步为学习率线性缩小阶段。在第t次迭代时，其所在的循环周期数m为
  
  $m=\left\lfloor 1+\frac{t}{2 \Delta T}\right\rfloor$
- 第t次迭代的学习率为
  
  $\alpha_{t}=\alpha_{\min }^{m}+\left(\alpha_{\max }^{m}-\alpha_{\min }^{m}\right)(\max (0,1-b))$
  $\alpha_{\max }^{m}$ 和 $\alpha_{\min }^{m}$ 分别为第m个周期中学习率的上界和下界，可以随着m的增大而逐渐降低
  
  $b=\left|\frac{t}{\Delta T}-2 m+1\right|$

学习率每间隔一定周期后重新初始化为某个预先设定值，然后逐渐衰减
假设在梯度下降过程中重启 $M$ 次，第 $m$ 次重启在上次重启开始第 $T_m$ 个回合后进行， $T_m$ 称为重启周期。在第 $m$ 次重启之前，采用余弦衰减来降低学习率，第 $t$ 次迭代的学习率为

$\alpha_{t}=\alpha_{\min }^{m}+\frac{1}{2}\left(\alpha_{\max }^{m}-\alpha_{\min }^{m}\right)\left(1+\cos \left(\frac{T_{c u r}}{T_{m}} \pi\right)\right)$
$\alpha_{\max }^{m}$ 和 $\alpha_{\min }^{m}$ 分别为第m个周期中学习率的上界和下界，可以随着m的增大而逐渐降低。 $T_{cur}$ 为从上次重启之后的Epoch数，可取小数以便在一个Epoch内进行衰减。重启周期 $T_m$ 可以随着重启次数逐渐增加，例如 $T_{m}=T_{m-1} \times \tau, \tau \geq 1$