1.31.动量与学习率衰减
1.31.1.动量
1.31.2.学习率衰减
1.31.动量与学习率衰减
1.31.1.动量
(1)没有引入动量
(2)引入动量后
从图中可以看到,引入动量后loss函数更新的幅度减小,同时找到了全局最优解
(3)两种情况对比
(4)引入动量代码
1.31.2.学习率衰减
(1)三种情况下学习率对训练的影响
学习率过小,会使得收敛太慢,但是却可以收敛到极小值点
学习率过大,会使得目标函数甚至越来越大,或者始终在极小值点旁边徘徊,无法收敛到极小值点。但是前面收敛很快。
结合这两点我们引入了动态学习率:
(2)动态学习率
在前期可以设置稍微大一点的学习率如0.1, 再经过一定时间后学习率不断下降, 这样既保持了下降速度,同时又保证可以收敛到极小值点。
从图中可以看出,红色曲线在突变点出学习率下降成原来的一半后,loss显著降低。
(3)代码实现
实现方法一:
CLASS torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08, verbose=False)
scheduler = StepLR(optimizer, step_size=30, gamma=0.1)
for epoch in range(100):
scheduler.step()
train(...)
validate(...)