pytorch必须掌握的的4种学习率衰减策略

最新推荐文章于 2023-12-16 22:52:54 发布

我就是超级帅

最新推荐文章于 2023-12-16 22:52:54 发布

阅读量2k

点赞数 1

分类专栏：学习率衰减

本文链接：https://blog.csdn.net/weixin_35848967/article/details/108511481

版权

学习率衰减专栏收录该内容

3 篇文章 7 订阅

订阅专栏

梯度下降算法需要我们指定一个学习率作为权重更新步幅的控制因子，常用的学习率有0.01、0.001以及0.0001等，学习率越大则权重更新的越快。一般来说，我们希望在训练初期学习率大一些，使得网络收敛迅速，在训练后期学习率小一些，使得网络更好的收敛到最优解。 下图展示了随着迭代的进行动态调整学习率的4中策略曲线。
在这里插入图片描述
上述4种策略为衰减类型：指数衰减、固定步长的衰减、多步衰减、余弦衰减。下面逐一介绍其性质，及pytorch对应的使用方式，需要注意学习率衰减策略很大程度上是依赖于经验与具体问题的，不能照搬参数。

1指数衰减

学习率按照指数的形式衰减是比较常用的策略，我们首先需要确定针对哪个优化器执行学习率动态调整策略，也就是需要提前定义一个优化器。

optimizer_ExpLR = torch.optim.SGD(net.parameters(), lr=0.1)

定义好优化器以后，就可以给这个优化器绑定一个指数衰减学习率控制器。

ExpLR = torch.optim.lr_scheduler.ExponentialLR(optimizer_ExpLR, gamma=0.98)

其中参数gamma表示衰减的底数，选择不同的gamma值可以获得不同的衰减曲线，如下。
在这里插入图片描述

tensorfow实现

前10个epoch学习率保持不变，10个之后学习率按照指数进行衰减

def scheduler(epoch):
    if epoch < 10:
        return 0.01
    else:
        return 0.01*tf.math.exp(0.1*(10-epoch))

callback = tf.keras.callbacks.LearningRateScheduler(scheduler)

history = model.fit(x=data,y=label,batch_size=32,epochs=100,callbacks=[callback])

在这里插入图片描述

2 固定步长衰减

有时我们希望学习率每个一定步长（或者epoch）就衰减为原来的gamma分之一，使用固定步长衰减依旧先定义优化器，在给优化器绑定StepLR对象：

optimizer_StepLR = torch.optim.SGD(net.parameters(), lr=0.1)
StepLR = torch.optim.lr_scheduler.StepLR(optimizer_StepLR, step_size=step_size, gamma=0.65)

其中gamma参数表示衰减的程度，step_size参数表示每隔多少个step进行一次学习率调整，下面对比了不同gamma值下的学习率变化情况。
在这里插入图片描述

tensorfow实现

def StepLR(epoch,lr):
    if epoch % 20==0:
        lr = lr * 0.1
    else:
        lr = lr
    return lr

学习每20个epoch衰减一次，衰减的系数为0.1
在这里插入图片描述

3 多步长衰减

上述固定步长的衰减的虽然能够按照固定的区间长度进行学习率更新，但是有时候我们希望不同的区间采用不同的更新频率，或者是有的区间更新学习率，有的区间不更新学习率， 这就需要使用MultiStepLR来实现动态区间长度控制。

optimizer_MultiStepLR = torch.optim.SGD(net.parameters(), lr=0.1)
torch.optim.lr_scheduler.MultiStepLR(optimizer_MultiStepLR,
                    milestones=[200, 300, 320, 340, 200], gamma=0.8)

其中milestones参数为表示学习率更新的起止区间，在区间[0,200]内学习率不更新，而在[200, 300]、[300, 320]…[340, 400]的右侧值都进行一次更新；gamma参数表示学习率衰减为上次的gamma分之一。其图示如下。
在这里插入图片描述
从图中可以看出，学习率在区间[200,400]内快速的下降，这就是milestone参数所控制的，在milestone以外的区间学习率始终保持不变。

4 余弦退火衰减

严格的说，余弦退火策略不应该算是学习率衰减策略，应为它使得学习率按周期变化，其定义方式如下：

optimizer_CosineLR = torch.optim.SGD(net.parameters(), lr=0.1)
CosineLR = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer_CosineLR, T_max=150, eta_min=0)

其包含的参数和余弦知识一样，参数T_max表示余弦周期；eta_min表示学习率的最小值，默认它是0表示学习率至少为正值。确定一个余弦函数需要知道最值和周期，其中周期就是T_max,最值是初始学习率，下图展示了不同周期下的余弦学习率更新曲线：
在这里插入图片描述

总结

上述4中学习率动态更新策略，4个负责学习率调整的类：StepLR、ExponentialLR、MultiStepLR和CosineAnnealingLR，其完整对学习率的更新都是在其step()函数被调用以后完成的，这个step表达的含义可以是一次迭代，当然更多情况下应该是一个epoch以后进行一次scheduler.step()，这根据具体问题来确定。此外，根据pytorch官网上给出的说明，scheduler.step()函数的调用应该在训练代码以后：

scheduler = ...
>>> for epoch in range(100):
>>>     train(...)
>>>     validate(...)
>>>     scheduler.step()

我就是超级帅

关注

1
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
pytorch必须掌握的的4种学习率衰减策略

梯度下降算法需要我们指定一个学习率作为权重更新步幅的控制因子，常用的学习率有0.01、0.001以及0.0001等，学习率越大则权重更新的越快。一般来说，我们希望在训练初期学习率大一些，使得网络收敛迅速，在训练后期学习率小一些，使得网络更好的收敛到最优解。下图展示了随着迭代的进行动态调整学习率的4中策略曲线。上述4种策略为衰减类型：指数衰减、固定步长的衰减、多步衰减、余弦衰减。下面逐一介绍其性质，及pytorch对应的使用方式，需要注意学习率衰减策略很大程度上是依赖于经验与具体问题的，不能照搬参数。
复制链接

扫一扫