在很多机器学习损失函数(Loss Function)最小化的计算中,梯度下降是一种适用范围广泛且效果稳定的方法。
梯度(Gradient): 函数对所有变量分别求偏导得到的vector,几何意义是Loss function等高线的法线方向。梯度方向可以简单理解为函数上升最快的方向,负梯度方向就是函数下降最快的方向,所以利用梯度求函数最优值的方法就称作梯度下降法。
沿着梯度的反方向不断迭代,就可以得到使Loss更小的模型参数,但这个过程往往不是一帆风顺的。
下面是使用Gradient Descent很实用的 3个Tip!
Tip 1: Tuning your learning rates 调整学习速率η
下方右图展示了η为偏大、偏小、恰好几种情况时,Loss减小的趋势。可以看到η偏小导致学习速度慢,η偏大则可能震荡导致无法收敛到最优解。