PyTorch学习率衰减策略：指数衰减（ExponentialLR）、固定步长衰减（StepLR）、多步长衰减（MultiStepLR）、余弦退火衰减（CosineAnnealingLR）

u013250861

已于 2022-05-28 12:45:06 修改

阅读量9.1k

点赞数 6

分类专栏： Pytorch 文章标签： PyTorch 学习率衰减策略

于 2022-03-19 19:42:16 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/123600994

版权

Pytorch 专栏收录该内容

49 篇文章

订阅专栏

本文介绍了在深度学习优化过程中，动态调整学习率的四种策略，特别是重点讲解了余弦退火（Cosine Annealing）的学习率衰减方式。余弦退火利用余弦函数的周期性来控制学习率，既能快速收敛又能避免陷入局部最优。此外，还提到了带重启的随机梯度下降（SGDR）算法，它通过周期性地提高学习率帮助模型跳出局部最小值。理解并适当地应用这些策略对于模型训练的效率和准确性至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降算法需要我们指定一个学习率作为权重更新步幅的控制因子，常用的学习率有0.01、0.001以及0.0001等，学习率越大则权重更新。一般来说，我们希望在训练初期学习率大一些，使得网络收敛迅速，在训练后期学习率小一些，使得网络更好的收敛到最优解。下图展示了随着迭代的进行动态调整学习率的4种策略曲线：
在这里插入图片描述
上述4种策略为自己根据资料整理得到的衰减类型：指数衰减、固定步长的衰减、多步长衰、余弦退火衰减。下面逐一介绍其性质，及pytorch对应的使用方式，需要注意学习率衰减策略很大程度上是依赖于经验与具体问题的，不能照搬参数。

学习率动态更新策略的说明

4个负责学习率调整的类：StepLR、ExponentialLR、MultiStepLR和CosineAnnealingLR，其完整对学习率的更新都是在其step()函数被调用以后完成的，这个step表达的含义可以是一次迭代，当然更多情况下应该是一个epoch以后进行一次scheduler.step()，这根据具体问题来确定。此外，根据pytorch官网上给出的说明，scheduler.step()函数的调用应该在训练代码以后：

scheduler = ...
>>> for epoch in range(100):
>>>     train(...)
>>>     validate(...)
>>>     scheduler.step()

一、指数衰减

二、固定步长衰减

三、多步长衰减

四、余弦退火衰减

当我们使用梯度下降算法来优化目标函数的时候，当越来越接近Loss值的全局最小值时，学习率应该变得更小来使得模型尽可能接近这一点。

余弦退火（Cosine annealing）可以通过余弦函数来降低学习率。

余弦函数中随着x的增加余弦值首先缓慢下降，然后加速下降，再次缓慢下降。

这种下降模式能和学习率配合，以一种十分有效的计算方式来产生很好的效果。

在这里插入图片描述
在论文Stochastic Gradient Descent with Warm Restarts中介绍主要介绍了带重启的随机梯度下降算法（SGDR），其中就引入了余弦退火的学习率下降方式。

本文主要介绍余弦退火的原理以及实现。并且因为我们的目标优化函数可能是多峰的（如下图所示），除了全局最优解之外还有多个局部最优解，在训练时梯度下降算法可能陷入局部最小值，此时可以通过突然提高学习率，来“跳出”局部最小值并找到通向全局最小值的路径。这种方式称为带重启的随机梯度下降方法。

参考资料：
pytorch必须掌握的的4种学习率衰减策略
 学习率衰减之余弦退火(CosineAnnealing）