优化算法-4:学习率衰减

本文来自于网易云课堂

学习率衰减

加快学习的一个办法就是随时间慢慢减少学习率,我们称之为学习率衰减。慢慢减少学习率的原因在于,在训练的初期,你可以承受较大的步伐,但是开始收敛的时候,小的学习率能让你的步伐变小一些。
如何减少学习率呢?
我们称一次迭代为1poch,那么让
α=11+decayrateepochnumα0 α = 1 1 + d e c a y − r a t e ∗ e p o c h − n u m ∗ α 0
这里写图片描述
如果想用学习率衰减,要做的就是尝试不同的超参数值,直到找到合适的值。
除了这个公式,人们还经常使用其他公式。
这里写图片描述

局部最优问题

在深度学习研究早期,人们总是担心优化算法会困在极差的局部最优。不过,随着深度学习理论的不断发展,我们对局部最优的理解也发生了改变。当提到局部最优时,人们脑海中想到的图像是这样的:
这里写图片描述
看起来图像里有很多局部最优的点,但这些低维图像给了我们一些指导,但是这些指导并不太准确。事实上,如果创建一个神经网络,通常梯度为0的点,并不是这个图中的局部最优点,而通常是鞍点(saddle points)。在一个两维的图像中,很可能得到局部最优点,但对于一个20000维的图像来说,要想每个方向的梯度都是0,这个可能性是很小很小的。因此在高维空间,碰到的大部分是鞍点。因此,如果你训练一个较大的网络,你很少会困在局部最优点。
这里写图片描述
如果局部最优不是问题,那么问题是什么?就是平稳段(plateaus)会减缓学习,平稳段是一段区域,其梯度长时间等于0,将会减慢训练速度,而这也是优化算法让你加速的地方。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值