动量梯度下降法(gradient descent with momentum)

最新推荐文章于 2025-03-07 17:37:31 发布

Monky丶D

最新推荐文章于 2025-03-07 17:37:31 发布

阅读量4w

点赞数 71

分类专栏：优化算法文章标签：动量梯度下降法机器学习优化算法 momentum gradient decent

本文链接：https://blog.csdn.net/weixin_36811328/article/details/83451096

版权

优化算法专栏收录该内容

2 篇文章

订阅专栏

简介

动量梯度下降法是对梯度下降法的改良版本，通常来说优化效果好于梯度下降法。对梯度下降法不熟悉的可以参考梯度下降法，理解梯度下降法是理解动量梯度下降法的前提，除此之外要搞懂动量梯度下降法需要知道原始方法在实际应用中的不足之处，动量梯度下降法怎样改善了原来方法的不足以及其具体的实现算法。依次从以下几个方面进行说明：

小批量梯度下降法(mini-batch gradient descent)
指数加权平均(exponential weight averages)
动量梯度下降法(gradient descent with momentum)

总结一下他们之间的关系：每次梯度下降都遍历整个数据集会耗费大量计算能力，而mini-batch梯度下降法通过从数据集抽取小批量的数据进行小批度梯度下降解决了这一问题。使用mini-batch会产生下降过程中左右振荡的现象。而动量梯度下降法通过减小振荡对算法进行优化。动量梯度下降法的核心便是对一系列梯度进行指数加权平均，下面时详细介绍。

1 mini-batch梯度下降法

在实际应用中，由于样本数量庞大，训练数据上百万是很常见的事。如果每执行一次梯度下降就遍历整个训练样本将会耗费大量的计算机资源。在所有样本中随机抽取一部分(mini-batch)样本，抽取的样本的分布规律与原样本基本相同，事实发现，实际训练中使用mini-batch梯度下降法可以大大加快训练速度。

1.1 实现方法

mini-batch梯度下降法的思想很简单，将样本总体分成多个mini-batch。例如100万的数据，分成10000份,每份包含100个数据的mini-batch-1到mini-batch-10000，每次梯度下降使用其中一个mini-batch进行训练，除此之外和梯度下降法没有任何区别。

1.2 直观体验

由于mini-batch每次仅使用数据集中的一部分进行梯度下降，所以每次下降并不是严格按照朝最小方向下降，但是总体下降趋势是朝着最小方向，上图可以明显看出两者之间的区别。

对右边的图来说，动量梯度下降法并没有什么用处。梯度批量下降法主要是针对mini-batch梯度下降法进行优化，优化之后左右的摆动减小，从而提高效率。优化前后的对比如下图，可见动量梯度下降法的摆动明显减弱。
momentum

2 指数加权平均

指数加权平均值又称指数加权移动平均值，局部平均值，移动平均值。加权平均这个概念都很熟悉，即根据各个元素所占权重计算平均值。指数加权平均中的指数表示各个元素所占权重呈指数分布。假设存在数列 $\left \{ Q_1,Q_2,Q_3,Q_4........... \right \}$ 令： $V_0=0$ $V_1=\beta V_0 + (1-\beta )Q_1$ $V_2=\beta V_1 + (1-\beta )Q_2$ $V_3=\beta V_2 + (1-\beta )Q_3$ $.$ $.$ $.$ 其中的 $V_1,V_2,V_3....$ 便称为该数列的指数加权平均。为了更好地理解指数两个字，我们展开 $V_{100}$ 中的所有 $V$ （为了方便书写，令 $\beta = 0.9,则 1- \beta =0.1）$ 得到： $V_{100} = 0.1Q_{100} + 0.1*0.9Q_{99} + 0.1*0.9^2Q_{98} + 0.1*0.9^3Q_{97} + ......+0.1*0.9^{99}Q_1$ 观察各项前面的系数不难得到从 $Q_1到Q_{100}$ 各数权重呈指数分布。其权重大小如下图：
在这里插入图片描述
可以看出指数加权平均是有记忆平均，每一个 $V$ 都包含了之前所有数据的信息。

3 动量梯度下降法

回顾一下梯度下降法每次的参数更新公式： $\alpha \nabla W$ $\alpha \nabla b$ 可以看到，每次更新仅与当前梯度值相关，并不涉及之前的梯度。而动量梯度下降法则对各个mini-batch求得的梯度 $\nabla W,\nabla b$ 使用指数加权平均得到 $V_{\nabla w }，V_{\nabla b }$ 。并使用新的参数更新之前的参数。

例如，在100次梯度下降中求得的梯度序列为: $\left \{ \nabla W_1 , \nabla W_2,\nabla W_3.........\nabla W_{99},\nabla W_{100} \right\}$ 则其对应的动量梯度分别为： $V_{\nabla W_0} = 0$ $V_{\nabla W_1} = \beta V_{\nabla W_0} + (1-\beta)\nabla W_1$ $V_{\nabla W_2} = \beta V_{\nabla W_1} + (1-\beta)\nabla W_2$ $.$ $.$ $.$ $V_{\nabla W_{100}} = \beta V_{\nabla W_{99}} + (1-\beta)\nabla W_{100}$ 使用指数加权平均之后梯度代替原梯度进行参数更新。因为每个指数加权平均后的梯度含有之前梯度的信息，动量梯度下降法因此得名。

4 参考资料

吴恩达神经网络网易公开课