2.9 学习率衰减
今天来讲一下关于学习率衰减(learning rate decay)的问题。首先说一下为什么要衰减学习率,如下图所示:
假设我们使用mini-batch梯度下降法,之前我们已经讲过它的一些特点,比如路径曲折不直接、有噪音(路径曲折不直接和有噪音是一回事)、在最优值附近波动不收敛。也许在刚开始学习时,我们可以承受较大的步长带来的代价,但是随着不断学习至开始收敛时,通过慢慢的减少学习率,减少步长,我们可以使梯度在最优值附近更小的区域内波动,使结果更准确稳定。
我们在之前的博文中讲过1 epoch表示遍历一次完整的数据集,我们希望学习率能够随着训练过程不断减少,而epoch可以作为这个参数影响学习率的大小,因为epoch的数值表示训练已经遍历了数据集几次。
在这里,我们令