深度学习笔记(2):2.9 学习率衰减 | 2.10 局部最优问题

2.9 学习率衰减

今天来讲一下关于学习率衰减(learning rate decay)的问题。首先说一下为什么要衰减学习率,如下图所示:

假设我们使用mini-batch梯度下降法,之前我们已经讲过它的一些特点,比如路径曲折不直接、有噪音(路径曲折不直接和有噪音是一回事)、在最优值附近波动不收敛。也许在刚开始学习时,我们可以承受较大的步长带来的代价,但是随着不断学习至开始收敛时,通过慢慢的减少学习率,减少步长,我们可以使梯度在最优值附近更小的区域内波动,使结果更准确稳定。

我们在之前的博文中讲过1 epoch表示遍历一次完整的数据集,我们希望学习率能够随着训练过程不断减少,而epoch可以作为这个参数影响学习率的大小,因为epoch的数值表示训练已经遍历了数据集几次。

在这里,我们令\alpha =\frac{1}{1+decayrate*epochnum}\alpha _{0}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值