深度学习中的Momentum算法原理

最新推荐文章于 2024-10-02 12:55:06 发布

Paul-LangJun

最新推荐文章于 2024-10-02 12:55:06 发布

阅读量2.5w

点赞数 43

CC 4.0 BY-SA版权

分类专栏：神经网络概率与统计文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/105238182

神经网络同时被 2 个专栏收录

45 篇文章

订阅专栏

概率与统计

21 篇文章

订阅专栏

一、介绍

在深度学习中，Momentum（动量）优化算法是对梯度下降法的一种优化，它在原理上模拟了物理学中的动量，已成为目前非常流行的深度学习优化算法之一。在介绍动量优化算法前，需要对 指数加权平均法 有所了解，它是动量优化算法的理论基础，可参见本人另外一篇博文：深度学习：指数加权平均。

物理学中动量的定义：设物体的质量为 $m$ ，速度为 $v$ ，则动量 $p=mv$ 。Momentum算法模拟了动量，但是其核心公式和动量一点关系都没有。

二、背景

下图表明了传统的梯度下降法会存在的问题，即训练轨迹会呈现锯齿状，这无疑会大大延长训练时间。同时，由于存在摆动现象，学习率只能设置的较小，才不会因为步伐太大而偏离最小值。

出现锯齿状的原因是：

1、每一轮迭代使用的训练数据一般是小批量的，没有使用全部的训练数据，因此更新方向会发生锯齿状甚至随机震荡状；

2、某些梯度分量的值比另外一些分量的值要大的多，导致个别分量主导了梯度的更新方向，而期望的梯度更新方向却行进的非常缓慢，这正是Momentum算法要解决的问题。

三、优化思路

一个很朴素的想法便是让纵向的摆动尽量小，同时保持横向的运动方向比较平稳。为此，需要知道梯度在过去的一段时间内的大致走向，以消除当前轮迭代梯度向量存在的方向抖动。

设第 $t$ 轮迭代的梯度向量为 $\textit{\textbf{w}}^t=\left [ w^t_1,w^t_2,w^t_3 \right ]^T$ ，可以简单的通过对每个分量的历史取值进行加和来实现该目的，并将 $\textit{\textbf{w}}^{t}_{ave}$ 作为新的梯度更新方向。

$\begin{bmatrix} w^1_1 & +\ w^2_1 & ... & +\ w^t_1\\ w^1_2 & +\ w^2_2 & ... & +\ w^t_2\\ w^1_3 & +\ w^2_3 & ... & +\ w^t_3 \end{bmatrix}=\begin{bmatrix} \sum_{i=0}^{t-1}w^i_1\\ \sum_{i=0}^{t-1}w^i_2\\ \sum_{i=0}^{t-1}w^i_3 \end{bmatrix}=\textit{\textbf{w}}^{t}_{ave}$

这种方法很简单，但每一轮梯度的计算权重相同，这会存在几点问题：

1、较早的梯度对梯度的大致走向预测几乎失去了作用；

2、较早的梯度抖动的较为严重，最近的梯度抖动要弱一些，如果权重都相同，梯度的大致走向预测可能不精确；

3、在梯度下降的后期，参数的搜索空间基本上处于一个凸集上，梯度的每个分量的大小和方向基本固定，不断的将大小和方向基本固定的分量做累加，梯度会变得非常大，造成无法收敛到局部最优。

这个时候指数加权平均开始派上用场了。将上式的加和平均变成指数移动加权平均，并加入衰减率 $\beta\in (0,1)$ ，并将 $\dpi{120} v_{\textit{\textbf{w}}}^{'}$ 作为梯度的更新方向。这样较早的梯度权重几乎为 0，最近的梯度权重接近1。

$\begin{bmatrix} \beta ^{t-1}w^1_1 & +\ \beta^{t-2} w^2_1 & ... & +\ \beta^0w^t_1\\ \beta ^{t-1}w^1_2 & +\ \beta ^{t-2}w^2_2 & ... & +\ \beta^0w^t_2\\ \beta ^{t-1}w^1_3 & +\ \beta ^{t-2}w^2_3 & ... & +\ \beta^0w^t_3 \end{bmatrix}=\begin{bmatrix} \sum_{i=0}^{t-1}\beta ^iw^i_1\\ \sum_{i=0}^{t-1}\beta ^iw^i_2\\ \sum_{i=0}^{t-1}\beta ^iw^i_3 \end{bmatrix}=v_\textit{\textbf{w}}^{'}$