5种梯度下降法的公式

神经美学_茂森

于 2024-07-21 17:05:22 发布

阅读量399

点赞数 10

分类专栏：【茂森】脑机接口算法文章标签：机器学习人工智能

BCI_GaoMaosen

本文链接：https://blog.csdn.net/qq_37148940/article/details/140590522

版权

【茂森】脑机接口算法专栏收录该内容

56 篇文章 13 订阅

订阅专栏

5种梯度下降法的公式推演：
在这里插入图片描述

1. 梯度下降 (Gradient Descent)

梯度下降法的更新公式为：

$\theta_{t+1} = \theta_t - \eta \nabla_\theta J(\theta)$

其中， $\theta_t$ 是当前参数， $\eta$ 是学习率， $J(\theta)$ 是损失函数， $\nabla_\theta J(\theta)$ 是损失函数关于参数的梯度。

通俗解释：这就像是一个人在下山，他每一步都选择最陡峭的方向（梯度的反方向）走一步，直到走到山脚（损失函数的最小值）。

2. Momentum

Momentum的更新公式为：

$v_t = \gamma v_{t-1} + \eta \nabla_\theta J(\theta)$
$\theta_{t+1} = \theta_t - v_t$

其中， $v_t$ 是速度， $\gamma$ 是动量因子。

通俗解释：这就像是一个人在滑冰，他每一步都会考虑上一步的速度和方向，然后再根据当前的梯度来调整自己的速度和方向。这样可以让他在下山的过程中更加平稳和快速。

3. AdaGrad

AdaGrad的更新公式为：

$G_t = G_{t-1} + \nabla_\theta J(\theta) \odot \nabla_\theta J(\theta)$
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \odot \nabla_\theta J(\theta)$

其中， $G_t$ 是梯度平方的累积， $\odot$ 表示元素乘法， $\epsilon$ 是一个很小的数，用来防止分母为0。

通俗解释：这就像是一个人在下山，他每一步都会根据之前走过的路的坡度（梯度的平方）来调整自己的步伐大小。如果之前走过的路很陡峭，他就会走得小心一些（步伐小一些）。

4. RMSProp

RMSProp的更新公式为：

$E[g^2]_t = \gamma E[g^2]_{t-1} + (1 - \gamma) \nabla_\theta J(\theta) \odot \nabla_\theta J(\theta)$
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} \odot \nabla_\theta J(\theta)$

其中， $E[g^2]_t$ 是梯度平方的指数移动平均。

通俗解释：这就像是一个人在下山，他每一步都会根据最近走过的路的坡度（梯度的平方）来调整自己的步伐大小，而不是像AdaGrad那样考虑整个历史。这样可以让他更加适应当前的地形。

5. Adam

Adam的更新公式为：

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) \nabla_\theta J(\theta)$
$v_t = \beta_2 v_{t-1} + (1 - \beta_2) \nabla_\theta J(\theta) \odot \nabla_\theta J(\theta)$
$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}$
$\hat{v}_t = \frac{v_t}{1 - \beta_2^t}$
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t$

其中， $m_t$ 和 $v_t$ 分别是梯度和梯度平方的指数移动平均， $\beta_1$ 和 $\beta_2$ 是衰减率， $\hat{m}_t$ 和 $\hat{v}_t$ 是对 $m_t$ 和 $v_t$ 的偏差修正。

通俗解释：Adam就像是一个结合了Momentum和RMSProp优点的下山者。他既考虑了之前的速度和方向（Momentum），又根据最近走过的路的坡度来调整自己的步伐大小（RMSProp）。而且，他还会对自己的速度和坡度进行偏差修正，让自己更加准确地朝着山脚前进。

神经美学_茂森

关注

10
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
5种梯度下降法的公式

这就像是一个人在下山，他每一步都会根据最近走过的路的坡度（梯度的平方）来调整自己的步伐大小，而不是像AdaGrad那样考虑整个历史。：这就像是一个人在下山，他每一步都会根据之前走过的路的坡度（梯度的平方）来调整自己的步伐大小。如果之前走过的路很陡峭，他就会走得小心一些（步伐小一些）。：这就像是一个人在滑冰，他每一步都会考虑上一步的速度和方向，然后再根据当前的梯度来调整自己的速度和方向。：这就像是一个人在下山，他每一步都选择最陡峭的方向（梯度的反方向）走一步，直到走到山脚（损失函数的最小值）。
复制链接

扫一扫