当我们使用BGD或mini-batch算法时,我们会发现梯度的下降如上图所示是来回起伏的,这样在计算到最小值时仍然需要一定的时间,现在想要消除减缓这个波动,就用到了动量梯度下降法。
一般β取0.9,这和我们之前提过的指数加权平均相同,用过去的平均值和现在的值共同决定。Vdw和Vdb相当于是速度,dw和db相当于是加速度
动量梯度下降法
于 2022-03-12 10:03:07 首次发布
当我们使用BGD或mini-batch算法时,我们会发现梯度的下降如上图所示是来回起伏的,这样在计算到最小值时仍然需要一定的时间,现在想要消除减缓这个波动,就用到了动量梯度下降法。
一般β取0.9,这和我们之前提过的指数加权平均相同,用过去的平均值和现在的值共同决定。Vdw和Vdb相当于是速度,dw和db相当于是加速度