RMSProp（Root Mean Square Propagation）

six.学长

于 2024-06-30 11:11:23 发布

阅读量1k

点赞数 14

分类专栏：梯度下降文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_51200050/article/details/140078060

版权

梯度下降专栏收录该内容

7 篇文章 1 订阅

订阅专栏

RMSProp（Root Mean Square Propagation）

RMSProp（Root Mean Square Propagation）是一种自适应学习率优化算法，用于加速梯度下降过程并提高收敛性。它通过引入梯度的移动平均和学习率的自适应调整，使得参数更新能够更好地适应不同的梯度尺度。

RMSProp的原理

RMSProp 的核心思想是保持梯度平方的移动平均，并使用这个移动平均值来调整学习率，从而使参数更新更加稳定和高效。具体来说，RMSProp的更新公式如下：

计算梯度平方的移动平均：
$E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2$
其中：
- $E[g^2]_t$ 是第 $t$ 次迭代的梯度平方的移动平均。
- $\beta$ 是衰减率，通常取值在0到1之间，控制移动平均的权重。
- $g_t$ 是第 $t$ 次迭代的梯度。
更新参数：
$\theta_t = \theta_{t-1} - \frac{\alpha}{\sqrt{E[g^2]_t + \epsilon}} g_t$
其中：
- $\theta_t$ 是第 $t$ 次迭代的参数。
- $\alpha$ 是学习率。
- $\epsilon$ 是一个小常数，用于防止除零错误，通常取 $10^{-8}$ 。

具体数据示例

假设我们有一个简单的线性回归问题，训练数据集如下：

x	y
1	2
2	3
3	4
4	5

我们要拟合的线性模型为 $h(\theta) = \theta_0 + \theta_1 x$ 。

步骤1：初始化参数

假设 $\theta_0 = 0$ ， $\theta_1 = 0$ ，学习率 $\alpha = 0.01$ ，衰减率 $\beta = 0.9$ ，并且初始化梯度平方的移动平均 $E[g^2]_0 = 0$ 。

步骤2：计算梯度

损失函数 $J(\theta)$ 为均方误差（MSE）：
$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(\theta) - y_i)^2$
其中， $m$ 是训练样本的数量。

对于第一个样本 $x_1, y_1) = (1, 2)$ ，模型预测值为：
$h(\theta) = \theta_0 + \theta_1 x_1 = 0$

计算损失函数对参数的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_1 = 0 - 2 = -2$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_1) x_1 = -2 \cdot 1 = -2$

步骤3：更新梯度平方的移动平均和参数

更新梯度平方的移动平均：
$E[g^2]_1 = \beta E[g^2]_0 + (1 - \beta) g_1^2 = 0.9 \times 0 + 0.1 \times (-2)^2 = 0.4$
更新参数：
$\theta_0 = \theta_0 - \frac{\alpha}{\sqrt{E[g^2]_1 + \epsilon}} g_1 = 0 - \frac{0.01}{\sqrt{0.4 + 10^{-8}}} \times (-2) \approx 0.01$
$\theta_1 = \theta_1 - \frac{\alpha}{\sqrt{E[g^2]_1 + \epsilon}} g_1 = 0 - \frac{0.01}{\sqrt{0.4 + 10^{-8}}} \times (-2) \approx 0.01$

第二次迭代

假设下一次随机选择的样本是 $x_2, y_2) = (2, 3)$ 。

计算新的预测值：
$h(\theta) = \theta_0 + \theta_1 x_2 = 0.01 + 0.01 \times 2 = 0.03$
计算新的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_2 = 0.03 - 3 = -2.97$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_2) x_2 = -2.97 \times 2 = -5.94$
更新梯度平方的移动平均：
$E[g^2]_2 = \beta E[g^2]_1 + (1 - \beta) g_2^2 = 0.9 \times 0.4 + 0.1 \times (-2.97)^2 = 0.9 \times 0.4 + 0.1 \times 8.8209 = 0.88209 + 0.36 = 1.24209$
更新参数：
$\theta_0 = \theta_0 - \frac{\alpha}{\sqrt{E[g^2]_2 + \epsilon}} g_2 = 0.01 - \frac{0.01}{\sqrt{1.24209 + 10^{-8}}} \times (-2.97) \approx 0.037$
$\theta_1 = \theta_1 - \frac{\alpha}{\sqrt{E[g^2]_2 + \epsilon}} g_2 = 0.01 - \frac{0.01}{\sqrt{1.24209 + 10^{-8}}} \times (-5.94) \approx 0.037$

第三次迭代

假设下一次随机选择的样本是 $x_3, y_3) = (3, 4)$ 。

计算新的预测值：
$h(\theta) = \theta_0 + \theta_1 x_3 = 0.037 + 0.037 \times 3 = 0.148$
计算新的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_3 = 0.148 - 4 = -3.852$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_3) x_3 = -3.852 \times 3 = -11.556$
更新梯度平方的移动平均：
$E[g^2]_3 = \beta E[g^2]_2 + (1 - \beta) g_3^2 = 0.9 \times 1.24209 + 0.1 \times (-3.852)^2 = 1.117881 + 1.4849 = 2.602781$
更新参数：
$\theta_0 = \theta_0 - \frac{\alpha}{\sqrt{E[g^2]_3 + \epsilon}} g_3 = 0.037 - \frac{0.01}{\sqrt{2.602781 + 10^{-8}}} \times (-3.852) \approx 0.061$
$\theta_1 = \theta_1 - \frac{\alpha}{\sqrt{E[g^2]_3 + \epsilon}} g_3 = 0.037 - \frac{0.01}{\sqrt{2.602781 + 10^{-8}}} \times (-11.556) \approx 0.071$

总结

RMSProp通过保持梯度平方的移动平均并使用它来调整学习率，使得参数更新更加稳定和高效。通过具体数据的示例，我们可以看到RMSProp如何在每次迭代中逐步计算移动平均并更新参数，从而加速模型的收敛。

six.学长

关注

14
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
RMSProp（Root Mean Square Propagation）

RMSProp通过保持梯度平方的移动平均并使用它来调整学习率，使得参数更新更加稳定和高效。通过具体数据的示例，我们可以看到RMSProp如何在每次迭代中逐步计算移动平均并更新参数，从而加速模型的收敛。
复制链接

扫一扫

专栏目录