动量梯度下降算法(Momentum)是利用指数加权移动平均的思想来实现梯度下降的算法。让我们先来回顾一下基础的梯度下降方法以及看看它有哪些不足之处。接着引出动量梯度下降算法,在理解了它的原理后看看它是如何规避之前方法的不足的。
如果不知道指数加权平均是什么?可以看看我上一篇文章:
【机器学习300问】80、指数加权平均数是什么?http://t.csdnimg.cn/mRPoE
一、通过举例来感性认识
(1)基础梯度下降法:缓慢探索的徒步者
<想象你是一位徒步者,站在一座多山的地形上,你的目标是到达最低点——山谷底部。你只能看到你周围有限的视野,看不到整个地形的全貌。为了决定往哪个方向走,你每走一步都会探测脚下的斜率,即地面倾斜的方向,然后沿着这个方向向下走一小步。这就是基础梯度下降法的工作原理,它按照当前位置的梯度(即损失函数下降最快的方向)逐步调整参数,以期达到最小损失值。