动量法（Momentum）

最新推荐文章于 2025-04-01 09:30:11 发布

six.学长

最新推荐文章于 2025-04-01 09:30:11 发布

阅读量2.5k

点赞数 27

分类专栏：梯度下降文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_51200050/article/details/140077767

版权

梯度下降专栏收录该内容

7 篇文章

订阅专栏

动量法（Momentum）

动量法（Momentum）是一种优化算法，旨在加速梯度下降法的收敛，尤其是在存在高曲率、嘈杂梯度或小但一致梯度的情况下。动量法通过引入动量概念，使得参数更新不仅依赖于当前的梯度，还考虑了之前梯度的累计效果，从而加速收敛并减少参数更新时的震荡。

动量法的原理

动量法的核心思想是引入一个动量项（velocity），记录之前的梯度信息，并在每次参数更新时加上这个动量项。具体来说，动量法的更新公式如下：

动量更新：
$v_t = \beta v_{t-1} + (1 - \beta) \nabla_{\theta} J(\theta)$
其中：
- $v_t$ 是第 $t$ 次迭代的动量项。
- $\beta$ 是动量超参数，通常取值在0到1之间，控制之前梯度的影响程度。
- $\nabla_{\theta} J(\theta)$ 是损失函数 $J(\theta)$ 对参数 $\theta$ 的梯度。
参数更新：
$\theta = \theta - \alpha v_t$
其中：
- $\theta$ 是模型参数。
- $\alpha$ 是学习率，控制每次更新的步长。

具体数据示例

假设我们有一个简单的线性回归问题，训练数据集如下：

x	y
1	2
2	3
3	4
4	5

我们要拟合的线性模型为 $h(\theta) = \theta_0 + \theta_1 x$ 。

步骤1：初始化参数

假设 $\theta_0 = 0$ ， $\theta_1 = 0$ ，学习率 $\alpha = 0.01$ ，动量系数 $\beta = 0.9$ ，并且初始化动量项 $v_0 = 0$ 。

步骤2：计算梯度

损失函数 $J(\theta)$ 为均方误差（MSE）：
$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(\theta) - y_i)^2$
其中， $m$ 是训练样本的数量。

对于第一个样本 $x_1, y_1) = (1, 2)$ ，模型预测值为：
$h(\theta) = \theta_0 + \theta_1 x_1 = 0$

计算损失函数对参数的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_1 = 0 - 2 = -2$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_1) x_1 = -2 \cdot 1 = -2$

步骤3：更新动量项和参数

更新动量项：
$v_0 = \beta v_{-1} + (1 - \beta) \nabla_{\theta} J(\theta) = 0.9 \times 0 + 0.1 \times (-2) = -0.2$
更新参数：
$\theta_0 = \theta_0 - \alpha v_0 = 0 - 0.01 \times (-0.2) = 0.002$
$\theta_1 = \theta_1 - \alpha v_0 = 0 - 0.01 \times (-0.2) = 0.002$

第二次迭代

假设下一次随机选择的样本是 $x_2, y_2) = (2, 3)$ 。

计算新的预测值：
$h(\theta) = \theta_0 + \theta_1 x_2 = 0.002 + 0.002 \times 2 = 0.006$
计算新的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_2 = 0.006 - 3 = -2.994$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_2) x_2 = -2.994 \times 2 = -5.988$
更新动量项：
$v_1 = \beta v_0 + (1 - \beta) \nabla_{\theta} J(\theta) = 0.9 \times (-0.2) + 0.1 \times (-2.994) = -0.4794$
更新参数：
$\theta_0 = \theta_0 - \alpha v_1 = 0.002 - 0.01 \times (-0.4794) = 0.006794$
$\theta_1 = \theta_1 - \alpha v_1 = 0.002 - 0.01 \times (-0.4794) = 0.006794$

第三次迭代

假设下一次随机选择的样本是 $x_3, y_3) = (3, 4)$ 。

计算新的预测值：
$h(\theta) = \theta_0 + \theta_1 x_3 = 0.006794 + 0.006794 \times 3 = 0.027176$
计算新的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_3 = 0.027176 - 4 = -3.972824$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_3) x_3 = -3.972824 \times 3 = -11.918472$
更新动量项：
$v_2 = \beta v_1 + (1 - \beta) \nabla_{\theta} J(\theta) = 0.9 \times (-0.4794) + 0.1 \times (-3.972824) = -0.8292424$
更新参数：
$\theta_0 = \theta_0 - \alpha v_2 = 0.006794 - 0.01 \times (-0.8292424) = 0.015086424$
$\theta_1 = \theta_1 - \alpha v_2 = 0.006794 - 0.01 \times (-0.8292424) = 0.015086424$