Warmup:预热学习率【在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps后再修改为预先设置的学习率来进行训练】

学习率是神经网络训练中最重要的超参数之一,针对学习率的优化方式很多,Warmup是其中的一种。

(一)、什么是Warmup?

Warmup是在ResNet论文中提到的一种学习率预热的方法,它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习率来进行训练。

(二)、为什么使用Warmup?
由于刚开始训练时,模型的权重(weights)是随机初始化的,此时若选择一个较大的学习率,可能带来模型的不稳定(振荡),选择Warmup预热学习率的方式,可以使得开始训练的几个epoches或者一些steps内学习率较小,在预热的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快,模型效果更佳。

ExampleExampleExample:Resnet论文中使用一个110层的ResNet在cifar10上训练时,先用0.01的学习率训练直到训练误差低于80%(大概训练了400个steps),然后使用0.1的学习率进行训练。

(三)、Warmup的改进
(二)所述的Warmup是constant warmup,它的不足之处在于从一个很小的学习率一下变为比较大的学习率可能会导致训练误差突然增大。于是18年Facebook提出了gradual warmup来解决这个问题,即从最初的小学习率开始,每个step增大一点点,直到达到最初设置的比较大的学习率时,采用最初设置的学习率进行训练。

1、gradual warmup的实现模拟代码如下:

"""
Implements gradual warmup, if train_steps < warmup_steps, the
learning rate will be `train_steps/warmup_steps * init_lr`.
Args:
    warmup_steps:warmup步长阈值,即train_steps<warmup_steps,使用预热学习率,否则使用预设值学习率
    train_steps:训练了的步长数
    init_lr:预设置学习率
"""
import numpy as np
warmup_steps = 2500
init_lr = 0.1  
# 模拟训练15000步
max_steps = 15000
for train_steps in range(max_steps):
    if warmup_steps and train_steps < warmup_steps:
        warmup_percent_done = train_steps / warmup_steps
        warmup_learning_rate = init_lr * warmup_percent_done  #gradual warmup_lr
        learning_rate = warmup_learning_rate
    else:
        #learning_rate = np.sin(learning_rate)  #预热学习率结束后,学习率呈sin衰减
        learning_rate = learning_rate**1.0001 #预热学习率结束后,学习率呈指数衰减(近似模拟指数衰减)
    if (train_steps+1) % 100 == 0:
             print("train_steps:%.3f--warmup_steps:%.3f--learning_rate:%.3f" % (
                 train_steps+1,warmup_steps,learning_rate))

2、上述代码实现的Warmup预热学习率以及学习率预热完成后衰减(sin or exp decay)的曲线图如下:
在这里插入图片描述
(四)总结
使用Warmup预热学习率的方式,即先用最初的小学习率训练,然后每个step增大一点点,直到达到最初设置的比较大的学习率时(注:此时预热学习率完成),采用最初设置的学习率进行训练(注:预热学习率完成后的训练过程,学习率是衰减的),有助于使模型收敛速度变快,效果更佳。




参考资料:
warmup 预热学习率

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch的warmup在深度学习中是一种常用的优化技巧,用于在训练初期对学习率进行逐渐增加的过程,以帮助模型更好地收敛。 在深度学习中,学习率一个重要的超参数,它决定了模型在每次参数更新时调整的长大小。传统的学习率调度方法,如固定学习率或按照一定的策略进行衰减,可能会导致模型在初始阶段收敛缓慢。 而warmup则是通过在训练初期将学习率从较小的值逐渐增加到设定的初始学习率,然后再按照设定的策略进行衰减。这种策略可以帮助模型在训练初期更快地找到一个较好的参数空间,并进一提高训练效果。 在PyTorch中,可以使用torch.optim.lr_scheduler模块中的LambdaLR或StepLR等调度器来实现warmup。具体操作是通过设置一个warmup_steps参数来指定预热数,在每个训练骤中计算当学习率,并将其应用于优化器。 下面是一个示例代码片段,展示了如何使用PyTorch实现warmup: ```python import torch from torch.optim.lr_scheduler import LambdaLR # 定义优化器和模型 optimizer = torch.optim.SGD(model.parameters(), lr=0.1) scheduler = LambdaLR(optimizer, lr_lambda=lambda step: warmup_factor(step, warmup_steps)) def warmup_factor(step, warmup_steps): if step >= warmup_steps: return 1.0 else: return float(step) / float(warmup_steps) # 训练循环 for epoch in range(num_epochs): for step, (inputs, labels) in enumerate(train_loader): # 向传播和反向传播 optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() # 更新学习率 scheduler.step() ``` 在上述示例中,我们通过定义一个warmup_factor函数来计算当学习率缩放因子。在每个训练骤中,我们使用scheduler.step()来更新学习率,并在优化器中应用新的学习率。 需要注意的是,warmup_steps的具体取值需要根据具体的任务和模型进行调整,通常可以根据实验结果进行调优。 希望这个简单的解释对你有帮助!如果还有其他问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值