深度学习-学习率lr调整

六种学习率调整策略:

1、等间隔调整学习率StepLR,调整倍数为gamma倍,调整间隔为step_size。step通常指的是epoch。

lr = lr * gamma

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)

2、按需调整学习率multiStepLR,与StepLR的区别是,调节的epoch是自己定义,衰减是由外部的设置来更改的。如[5,20,25,80]处对学习率进行衰减,

3、指数衰减调整学习率ExponentialLR

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)

4、余弦退火调整学习率 CosineAnnealingLR

以初始学习率为最大学习率,在一个周期内先下降后上升。

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)

5、自适用调整学习率ReduceLROnPlateau

当某些指标不在变化(下降或者升高),调整学习率,这是非常实用的学习率调整策略。

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

mode-模式选择 min 表示当指标不再降低(如监测loss), max 表示当指标不再升高(如监测 accuracy)。factor 学习率调整倍数 学习率更新为 lr = lr * factor   patience 忍受该指标多少个step不变化。eps 学习率衰减的最小值。

6. 自定义调整学习率 LambdaLR

为不同的参数组设定不同学习率调整策略。

torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=-1)

参数:
lr_lambda(function or list)- 一个计算学习率调整倍数的函数,输入通常为 step,当有多个参数组时,设为 list。

Warm-up

Warmup是在ResNet论文中提到的一种学习率预热的方法,指训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。

在模型刚开始训练时,模型权重是随机初始化的,一个较大的学习率可能会给模型的不稳定,选择预热方式,模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快,模型效果更佳。

常见的warmup方式有三种:constant,linear和exponent。

constant:先用0.01的学习率训练直到训练误差低于80%(大概训练了400个steps),然后使用0.1的学习率进行训练。

linear:constant的不足之处在于从一个很小的学习率一下变为比较大的学习率可能会导致训练误差突然增大。于是18年Facebook提出了gradual warmup来解决这个问题,即从最初的小学习率开始,每个step增大一点点,在warmup期间线性增长。

exponent:在warmup期间,学习率从指数增长

  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值