本文来自于网易云课堂
学习率衰减
加快学习的一个办法就是随时间慢慢减少学习率,我们称之为学习率衰减。慢慢减少学习率的原因在于,在训练的初期,你可以承受较大的步伐,但是开始收敛的时候,小的学习率能让你的步伐变小一些。
如何减少学习率呢?
我们称一次迭代为1poch,那么让
α=11+decay−rate∗epoch−num∗α0
α
=
1
1
+
d
e
c
a
y
−
r
a
t
e
∗
e
p
o
c
h
−
n
u
m
∗
α
0
如果想用学习率衰减,要做的就是尝试不同的超参数值,直到找到合适的值。
除了这个公式,人们还经常使用其他公式。
局部最优问题
在深度学习研究早期,人们总是担心优化算法会困在极差的局部最优。不过,随着深度学习理论的不断发展,我们对局部最优的理解也发生了改变。当提到局部最优时,人们脑海中想到的图像是这样的:
看起来图像里有很多局部最优的点,但这些低维图像给了我们一些指导,但是这些指导并不太准确。事实上,如果创建一个神经网络,通常梯度为0的点,并不是这个图中的局部最优点,而通常是鞍点(saddle points)。在一个两维的图像中,很可能得到局部最优点,但对于一个20000维的图像来说,要想每个方向的梯度都是0,这个可能性是很小很小的。因此在高维空间,碰到的大部分是鞍点。因此,如果你训练一个较大的网络,你很少会困在局部最优点。
如果局部最优不是问题,那么问题是什么?就是平稳段(plateaus)会减缓学习,平稳段是一段区域,其梯度长时间等于0,将会减慢训练速度,而这也是优化算法让你加速的地方。