动量梯度下降算法

最新推荐文章于 2022-04-12 13:04:52 发布

LiuHDme

最新推荐文章于 2022-04-12 13:04:52 发布

阅读量2.8k

点赞数 5

分类专栏：优化算法文章标签：算法深度学习机器学习人工智能神经网络

本文链接：https://blog.csdn.net/LiuHDme/article/details/104744844

版权

优化算法专栏收录该内容

5 篇文章 5 订阅

订阅专栏

上篇文章介绍了指数加权平均，这篇文章介绍在此基础上介绍一下动量梯度下降算法。

所谓动量梯度下降算法，简言之就计算梯度的指数加权平均，然后使用这个梯度来更新权重，下面我们来详细解释这句话。

我们在使用梯度下降算法更新权重时，希望损失函数能减小直到最优值。我们可以在一副等高线图中，画出损失函数随着迭代次数增加而减小的路径，即如下图所示：

图中红点为最优点，蓝线为损失函数的减小路径，从图中左侧出发，逐渐靠近最优点。不过我们可以发现，这条路径看起来十分曲折，虽然整体趋势是向右的，但在竖直方向有太多波动，这直接造成了两个负面影响：

增加了梯度下降的次数，增加了训练时间
无法使用较大的学习率

如果使用了较大的学习率，可能会出现下图中紫线的情况：

即虽然增大了向右的步伐，同时也增大了上下的步伐，导致损失函数值反而越来越大，因此为了避免振荡过大，我们只能选择较小的学习率。

为了使其步伐能在水平方向更大，而在竖直方向更小，可以使用之前提到的指数滑动平均。

我们说过，运用了指数滑动平均后， $v_t$ 相当于粗略计算了前 $\frac{1}{1 - \beta}$ 个数据的平均值，如果我们对导数进行指数滑动平均操作，就会有以下结果：

竖直方向的振动几乎消失
水平方向的步伐逐渐加大

即如下图红线所示

这正好是我们想看到的结果，为什么会这样呢？下面来分析一下。观察上图中的蓝线，我们发现竖直方向的振动大致可以抵消，即每两次上下方向的振动长度大致相等，因此如果对其去平均值，结果就会很接近 0，这就是“竖直方向的振动几乎消失”的原因，而蓝线水平方向的路径都是向右的，对其取平均值不会使其减小，而是随着已经行进的路径增多而变大，这就是“水平方向的步伐逐渐加大”的原因。综上，得到上图中的红线。

算法描述如下：

第 t 次迭代：
	在当前的 mini-batch 上计算 dW, db
	v_dW = β * v_dW + (1 - β) * dW
	v_db = β * v_db + (1 - β) * db
	W -= α * v_dW, b -= α * v_db

上面的描述中， $\alpha$ 和 $\beta$ 都是需要调整的超参数， $\beta$ 通常会取 0.9 左右。

以上就是对动量梯度下降算法的简单介绍，它几乎总是要优于不适用动量的梯度下降算法，不过除此外，还有一些其他的方法也能加速你的训练速度，接下来几篇文章会谈谈 RMSprop 和 Adam 梯度下降算法以及学习率衰减。

LiuHDme

关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
动量梯度下降算法

上篇文章介绍了指数加权平均，这篇文章介绍在此基础上介绍一下动量梯度下降算法。所谓动量梯度下降算法，简言之就计算梯度的指数加权平均，然后使用这个梯度来更新权重，下面我们来详细解释这句话。我们在使用梯度下降算法更新权重时，希望损失函数能减小直到最优值。我们可以在一副等高线图中，画出损失函数随着迭代次数增加而减小的路径，即如下图所示：图中红点为最优点，蓝线为损失函数的减小路径，从图中左侧出发...
复制链接

扫一扫

专栏目录