【Pytorch】训练过程中学习率变化的几种策略

最新推荐文章于 2024-09-25 16:05:26 发布

郝同学

最新推荐文章于 2024-09-25 16:05:26 发布

阅读量2.6k

点赞数 2

本文链接：https://blog.csdn.net/qq_42346574/article/details/119954605

版权

深度学习专栏收录该内容

12 篇文章 2 订阅

订阅专栏

一、问题背景

我们往往在训练模型的时候，学习率不能是一成不变的，大的学习率收敛快，但可能出现过拟合的情况，难以达到最优点；小的学习率收敛较慢，耗时较长，但能将loss降得更低。
因此训练全过程并不是使用一个固定值的学习速度，而是随着时间的推移让学习率动态变化，比如刚开始训练，离下山地点的最优值还很远，那么可以使用较大的学习率下的快一点，当快接近最优值时为避免跨过最优值，下山速度要放缓，即应使用较小学习率训练，具体情况下因为我们也不知道训练时的最优值。

二、解决方案

一种比较经典的策略就是warmup策略，warmup顾名思义就是热身，即在刚刚开始训练时以很小的学习率进行训练，使得网络熟悉数据，随着训练的进行学习率慢慢变大，到了一定程度，以设置的初始学习率进行训练，模型稳定后学习率再慢慢变小；学习率变化过程：上升—>平稳—>下降；这样会使模型的收敛效果较好。

所以在pytorch中具体的解决办法有：

# warmup的方法可以自己实现，这里介绍optim库中自带的scheduler方法
import torch.optim as optim
from torch.optim import lr_scheduler

'''
（1）等间隔调整学习率 StepLR

（2）按需调整学习率 MultiStepLR

（3）指数衰减调整学习率 ExponentialLR

（4）余弦退火调整学习率 CosineAnnealingLR

（5）自适应调整学习率 ReduceLROnPlateau

（6）自定义调整学习率 LambdaLR
'''
# 例如 StepLR
optimizer = optim.Adam(model.parameters(), lr=0.001)
scheduler1 = lr_scheduler.StepLR(optimizer, 5, 0.5) # 每过5个epoch，学习率乘以0.1 
# …… 其他方法的具体使用可以去搜索对应的函数说明文档
scheduler5 = lr_scheduler.ReduceLROnPlateau() # 这种方法则不受epoch的影响，取决于我们的参数的“min”、“max”和我们检测目标是loss还是acc。
scheduler6 = lr_scheduler.LambdaLR(optimizer, lr_lambda=lambda epoch:1/(epoch+1))