使用动量(Momentum)的SGD、使用Nesterov动量的SGD

最新推荐文章于 2024-05-03 14:24:26 发布

weixin_37958272

最新推荐文章于 2024-05-03 14:24:26 发布

阅读量5.8k

点赞数 8

分类专栏：深度学习优化算法文章标签：深度学习算法人工智能

深度学习优化算法专栏收录该内容

12 篇文章 2 订阅

订阅专栏

使用动量(Momentum)的SGD、使用Nesterov动量的SGD

参考：使用动量(Momentum)的SGD、使用Nesterov动量的SGD

一. 使用动量(Momentum)的随机梯度下降

虽然随机梯度下降是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法旨在加速学习（加快梯度下降的速度），特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法累积了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。

简单介绍一下什么是指数加权平均(exponential weight averages)：指数加权平均值又称指数加权移动平均值，局部平均值，移动平均值。加权平均这个概念都很熟悉，即根据各个元素所占权重计算平均值。指数加权平均中的指数表示各个元素所占权重呈指数分布。假设存在数列 $Q_1,Q_2,Q_3,...)$ ，令 $V_0=0$ ,

$V_1=\beta V_0+(1-\beta)Q_1$

$V_2=\beta V_1+(1-\beta)Q_2$

$V_3=\beta V_2+(1-\beta)Q_3$

其中 $\beta\in[0,1]$ 为衰减系数， $V_1,V_2,V_3....$ 称为该数列的指数加权平均。为了更好地理解指数这两个字，我们展开 $V_{100}$ （为了方便书写，令 $\beta=0.9$ ， $1-\beta=0.1$ ）：

$V_{100}=0.1Q_{100}+0.1*0.9Q_{99}+0.1*0.9^2Q_{98}+0.1*0.9^3Q_{97}+......+0.1*0.9^{99}Q_{1}$

从上式可以看出指数加权平均是有记忆的，每一个V都包含了之前所有数据的信息。

在实践中，在衰减初期我们需要对偏差进行修正：

$V_t=\frac{V_t}{1-\beta^t}$

动量梯度下降的参数更新公式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QOJL94xu-1593960832820)(005.jpg)]

在这个公式中，我们可以看到参数更新时并不是直接减去 $a\mathrm{d}W$ 和 $a\mathrm{d}b$ ，而是计算出了一个 $v_{\mathrm{d}W}$ 和 $v_{\mathrm{d}b}$ 。这又是什么呢？其实这就是指数加权平均。使用上面的公式，可以将之前的 $\mathrm{d}W$ 和 $\mathrm{d}b$ 都联系起来，不再是每一次梯度都是独立的情况。让每一次的参数更新方向不仅仅取决于当前位置的梯度，还受到上一次参数更新方向的影响。

为了更加直观地理解，画个图吧。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tyS2qLoM-1593960832821)(006.jpg)]

注意 $\beta=0$ 时，就是传统的SGD。传统的SGD和使用动量的SGD对比图如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xof9NgfO-1593960832822)(007.jpg)]

**带有动量的SGD本质：使用指数加权平均之后的梯度代替原梯度进行参数更新。**因为每个指数加权平均后的梯度含有之前梯度的信息，动量梯度下降法因此得名。

**带有动量的SGD算法如下：**在传统的SGD中引入变量v，其实这个v 就是梯度的改变量。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-26ycqcL7-1593960832823)(008.jpg)]

动量参数 $\alpha\in[0,1)$ ，决定了之前梯度的贡献衰减得有多快。如果动量算法总是观察到梯度g，那么他会在方向 -g 上不停加速，直到达到最终速度，其中步长为

$\frac{1}{1-\alpha}\epsilon g$

因此将动量的超参数视为 $\frac{1}{1-\alpha}$ 有助于理解。在实践中，动量参数 $ \alpha$ 的一般取值为0.5、0.9、0.99，分别对应着最大速度2倍，10倍，100倍于SGD算法。

带有动量的SGD优点：

（1）可以通过局部极小点；

（2）加快收敛速度；

（3）抑制梯度下降时上下震荡的情况。

下面我们来看看动量法如何帮助我们缓解病态曲率的问题。下图中，梯度大多数发生更新在 $ž$ 字形方向上，我们将每次更新分解为W1和W2方向上的两个分量。如果我们分别累加这些梯度的两个分量，那么W1方向上的分量将互相抵消，而W2方向上的分量得到了加强。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hCYAXQ5q-1593960832823)(010.jpg)]

也就是说，基于动量法的更新，积累了W2方向上的分量，清空了W1方向上的分量，从而帮助我们更快地通往最小值。从这个意义上说，动量法也有助于抑制振荡。

动量法同时提供了加速度，从而加快收敛。但你可能想要搭配模拟退火，以免跳过最小值。当我们使用动量优化算法的时候，可以解决小批量SGD优化算法更新幅度摆动大的问题，同时可以使得网络的收敛速度更快。

在实践中，动量系数一般初始化为0.5，并在多个时期后逐渐退火至0.9。

二、使用Nesterov动量的SGD

Nesterov是Momentum的变种。与Momentum唯一区别就是，计算梯度的不同。Nesterov动量中，先用当前的速度 $v$ 临时更新一遍参数，在用更新的临时参数计算梯度。因此，Nesterov动量可以解释为在Momentum动量方法中添加了一个校正因子。

完整的Nesterov动量算法如下所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lJLyxCEA-1593960832823)(009.jpg)]

weixin_37958272

关注

8
点赞
踩
46

收藏

觉得还不错? 一键收藏
0
评论
使用动量(Momentum)的SGD、使用Nesterov动量的SGD

使用动量(Momentum)的SGD、使用Nesterov动量的SGD参考：使用动量(Momentum)的SGD、使用Nesterov动量的SGD一. 使用动量(Momentum)的随机梯度下降虽然随机梯度下降是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法旨在加速学习（加快梯度下降的速度），特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法累积了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。简单介绍一下什么是指数加权平均(exponential weight average
复制链接

扫一扫