学习率衰减
mini-batch梯度下降最终会在最小值附近的区间摆动(噪声很大),不会精确收敛
为了更加近似最小值,采用学习率衰减的方法
随着学习率的衰减,步长会逐渐变小,因此最终摆动的区间会很小,更加近似最小值
如下图,蓝色曲线表示mini-batch梯度下降,绿色曲线表示采用学习率衰减的梯度下降

学习率衰减的实现

1 epoch = 遍历数据1次
是学习率衰减的超参数,
是初始学习率,
是遍历次数
其他衰减方案
是初始学习率,
是衰减常量,一般设置
,
是遍历次数
是初始学习率,
是衰减常量,
是遍历次数
分段衰减函数

本文探讨了学习率衰减在解决mini-batch梯度下降中震荡问题的方法,通过调整学习率随时间减小,使得模型更接近最小值。介绍了一些实现策略,如固定衰减、指数衰减以及分段衰减函数,强调了学习率衰减作为深度学习优化中的重要超参数。
2493

被折叠的 条评论
为什么被折叠?



