在梯度下降的时候,如果学习率learning rate 太低会导致梯度更新次数很多次才能到最低点(图一)
学习率learning rate 太高会导致梯度更新时一直震荡不能到最低点
学习率衰减
学习率在梯度下降时一开始可以大,但是后面要慢慢变小,在尽可能短的时间内达到最小点。
在梯度下降的时候,如果学习率learning rate 太低会导致梯度更新次数很多次才能到最低点(图一)
学习率learning rate 太高会导致梯度更新时一直震荡不能到最低点
学习率在梯度下降时一开始可以大,但是后面要慢慢变小,在尽可能短的时间内达到最小点。