学习率衰减
mini-batch梯度下降最终会在最小值附近的区间摆动(噪声很大),不会精确收敛
为了更加近似最小值,采用学习率衰减的方法
随着学习率的衰减,步长会逐渐变小,因此最终摆动的区间会很小,更加近似最小值
如下图,蓝色曲线表示mini-batch梯度下降,绿色曲线表示采用学习率衰减的梯度下降
学习率衰减的实现
1 epoch = 遍历数据1次
是学习率衰减的超参数,是初始学习率,是遍历次数
其他衰减方案
是初始学习率,是衰减常量,一般设置,是遍历次数
是初始学习率,是衰减常量,是遍历次数
分段衰减函数