深度学习-学习率lr调整

fj1024

于 2024-06-28 11:17:36 发布

阅读量746

点赞数 12

文章标签：深度学习学习人工智能

本文链接：https://blog.csdn.net/fj1024/article/details/140032938

版权

六种学习率调整策略：

1、等间隔调整学习率StepLR，调整倍数为gamma倍，调整间隔为step_size。step通常指的是epoch。

lr = lr * gamma

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)

2、按需调整学习率multiStepLR，与StepLR的区别是，调节的epoch是自己定义，衰减是由外部的设置来更改的。如[5,20,25,80]处对学习率进行衰减，

3、指数衰减调整学习率ExponentialLR

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)

4、余弦退火调整学习率 CosineAnnealingLR

以初始学习率为最大学习率，在一个周期内先下降后上升。

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)

5、自适用调整学习率ReduceLROnPlateau

当某些指标不在变化（下降或者升高），调整学习率，这是非常实用的学习率调整策略。

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

mode-模式选择 min 表示当指标不再降低(如监测loss)， max 表示当指标不再升高(如监测 accuracy)。factor 学习率调整倍数学习率更新为 lr = lr * factor patience 忍受该指标多少个step不变化。eps 学习率衰减的最小值。

6. 自定义调整学习率 LambdaLR

为不同的参数组设定不同学习率调整策略。

torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=-1)

参数：
lr_lambda(function or list)- 一个计算学习率调整倍数的函数，输入通常为 step，当有多个参数组时，设为 list。

Warm-up

Warmup是在ResNet论文中提到的一种学习率预热的方法，指训练开始的时候先选择使用一个较小的学习率，训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。

在模型刚开始训练时，模型权重是随机初始化的，一个较大的学习率可能会给模型的不稳定，选择预热方式，模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快，模型效果更佳。

常见的warmup方式有三种：constant，linear和exponent。

constant：先用0.01的学习率训练直到训练误差低于80%（大概训练了400个steps），然后使用0.1的学习率进行训练。

linear：constant的不足之处在于从一个很小的学习率一下变为比较大的学习率可能会导致训练误差突然增大。于是18年Facebook提出了gradual warmup来解决这个问题，即从最初的小学习率开始，每个step增大一点点，在warmup期间线性增长。

exponent：在warmup期间，学习率从指数增长

fj1024

关注

12
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
深度学习-学习率lr调整

Warmup是在ResNet论文中提到的一种学习率预热的方法，指训练开始的时候先选择使用一个较小的学习率，训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。在模型刚开始训练时，模型权重是随机初始化的，一个较大的学习率可能会给模型的不稳定，选择预热方式，模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快，模型效果更佳。以初始学习率为最大学习率，在一个周期内先下降后上升。
复制链接

扫一扫