1、学习率(base_lr):
如果学习率较小,训练会变得更加可靠,但是优化会耗费较长的时间,因为朝向损失函数最小值的每个步长很小。如果学习率较大,训练可能根本不会收敛,甚至会发散。权重的改变量可能非常大,使得优化越过最小值,使得损失函数变得更糟。
备注:诀窍就是从一个低学习率开始训练网络,并在每个批次中指数提高学习率。为每批样本记录学习率和训练损失。然后,根据损失和学习率画图。
首先,学习率较低,损失函数值缓慢改善,然后训练加速,直到学习速度变得过高导致损失函数值增加:训练过程发散。
其次,观察计算损失函数变化率(也就是损失函数关于迭代次数的导数),然后以学习率为 x 轴,以变化率为 y 轴画图。
参考:https://blog.csdn.net/sfm06sqvw55dft1/article/details/78684355