学习率衰减
1.通常我们在进行模型训练时,刚开始的参数值离最优值的距离还是比较远的,所以我们会选择比较大的学习率(也叫步长),让它下降的快点;下降次数多了,快接近(收敛到)最优值的时候,会选择较小的学习率,让它走慢点,走稳一点。
但是,常常我们在训练模型的时候,只是设置了一个学习率的值,它不会变化;设置的太大的话,到后面,参数值会抖动的比较厉害,不能很稳;设置的太小,又会走的很慢,需要加大训练轮次,又浪费时间;所以,还是不如能动态调整的好。
2.常见的学习率衰减方法
①阶梯衰减
就是分段衰减,下降几次(跑几轮)衰减一下,一般都是成倍的衰减。
但这种不能很好的根据当前情况进行衰减,只是固定死了。
②指数衰减
β是设置的衰减率,通常设置为0.96-0.99之间;
α0是最初设置的学习率;
t为迭代次数
按迭代次数进行衰减
③自然指数衰减
参数和指数衰减的相同
指数衰减,自然指数衰减等一些衰减方式,都是根据迭代轮次来衰减的,这样就会造成频繁的衰减,会使得学习率降到0,导致模型更新几乎停止,所以要加入衰减间隔,不要一直衰减。