文章目录
该篇笔记整理自余庭嵩的讲解。
学习率调整策略
基础知识
梯度下降算法中的学习率的作用是:
w i + 1 = w i − L R ∗ g ( w i ) \boldsymbol{w}_{\boldsymbol{i}+\boldsymbol{1}}=\boldsymbol{w}_{\boldsymbol{i}}-\mathrm{L} R * \boldsymbol{g}\left(\boldsymbol{w}_{\boldsymbol{i}}\right) wi+1=wi−LR∗g(wi)
可见学习率LR控制了更新的步伐,训练开始时学习率会大,后面学习率会减小。因为一开始的学习率大是为了快速接近最优值,但如果后面还是不减小的话,就很有可能更新超过最优值点或者在最优点附近震荡,因此调整学习率是使得算法在保证精确度的前提下更快的途径。
pytorch中给出了学习率如何进行调整的方法,所有的学习率调整策略都会继承_LRScheduler这个类,这个父类的构造函数内容如下。
主要属性:
- optimizer:关联的优化器。优化器存放学习率,而_LRScheduler改动学习率
- last_epoch:记录epoch数
- base_lrs:记录初始学习率,列表形式
上面的base_lrs是一个列表的形式,当优化器中有多个参数组的时候,base_lrs里面就会存放多个学习率,具体通过构造函数里面的三句话即可实现:
for group in optimizer.param_groups:
group.setdefault('initial_lr', group['lr'])
self.base_lrs = list(map(lambda group: group['initial_lr'], optimizer.param_groups))
主要方法:
- step():更新下一个epoch的学习率
- get_lr():虚函数,计算下一个epoch的学习率。这是要通过子类重写的。
这里step函数的内容如下:
def step(self, epoch=None):
if epoch is None:
epoch = self.last_epoch + 1
self.last_epoch = epoch
for param_group, lr in zip(self.optimizer.param_groups, self.get_lr()):
param_group['lr'] = lr
这里注意:执行step的步骤千万不要放在iteration的for循环当中,也就是说不可以和optimizer的step在同一个循环内,而是要放在epoch的那个循环中。否则学习率将会快速降低。
step里面最关键的部分就是上面代码中那个for循环,这部分将会对学习率做出更改。主要是通过get_lr函数实现lr的计算,再把计算好的lr放到参数组中。
pytorch中的6种学习率调整策略
下面的6种学习率调整策略都会有代码实例来直观感受其作用,为避免重复,在开头我们先统一构造一个输入数据以供后续使用。数据构造如下:
LR = 0.1
iteration = 10
max_epoch = 200
weights = torch.randn((1), requires_grad=True)
target = torch.zeros((1))
optimizer = optim.SGD([weights], lr=LR, momentum=0.9)