机器学习算法（四）- 梯度下降法

最新推荐文章于 2024-08-02 13:43:48 发布

Anycall201

最新推荐文章于 2024-08-02 13:43:48 发布

阅读量237

点赞数

分类专栏：机器学习算法文章标签：机器学习

本文链接：https://blog.csdn.net/anycall201/article/details/111649185

版权

机器学习算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

1 SGD
2 Momentum
3 Adagrad
4 RMSProp
5 Adam

在对模型优化时，希望通过梯度下降法使得模型的损失函数降低。目前主要的梯度下降法有 SGD、Momentum、Adagrad、RMSProp、Adam几种，接下来将详细讨论这几种方法以及他们的优缺点。

1 SGD

随机选取一个样本的损失来近似整体样本的平均损失，SGD在进行参数更新时的计算方式为
$\Theta_t = \Theta_{t-1} - \alpha g_t$

其优点在于：

收敛速度快。

其缺陷在于：

容易收敛到局部最优，或被困在鞍点。
对初始学习率的选择依赖度较高，因该算法参数的更新幅度固定，无法主动随着迭代次数更新。
各方向学习率相同，但在实际情形中这种方式并不合理。

2 Momentum

对于鞍点或是局部最优点，因各方向在该点的梯度均为0，因此SGD算法没有能力从该点逃离。为了解决这一缺陷，Momentum算法被提出。

Momentum算法模拟物理学中的动量这一概念，它模拟的是物体运动的惯性。即参数在更新时，在一定程度上保留之前更新的方向，对当前的更新方向进行微调。

记 $g_t$ 为当前时刻的梯度，Momentum在进行参数更新时的计算方式为
$v_t = \gamma v_{t-1} + \alpha g_t$

$\Theta_t = \Theta_{t-1} - v_t$

对比SGD算法，其优点在于：

参数的更新方向与上一时刻一致时，能增大参数的更新幅度，模型能学习的更快。
同时，该方法具有一定摆脱局部最优的能力。
对初始学习率的选择要求没那么高。

其缺陷在于：

没解决各方向学习率相同的问题。

3 Adagrad

Adagrad算法是针对SGD在各方向学习率相同的缺点进行的改进，该算法在进行参数更新时的计算方式为
$\Theta_{t,i} = \Theta_{t-1,i} - \frac{\alpha}{\sqrt{G_{t,i}+\epsilon}}g_{t,i}$

$G_{t,i} = \sum_{k=1}^t{g_{k,i}^2}$

其中

下标 $i$ 表示参数的第 $i$ 个方向。
$G_{t,i}$ 表示参数此前 $t$ 轮在第 $i$ 个方向上梯度平方和。
引入 $\epsilon$ 是为了防止出现分母为0的情况。

该算法的缺陷在于：

缺乏摆脱局部困境的能力。
随着 $G_t$ 的累积，训练中后期分母将越来越大、从而梯度趋近于0，使得训练提前结束。

4 RMSProp

RMSProp算法是针对Adagrad梯度下降过快的缺陷进行的改进，该算法在进行参数更新时的计算方式为
$\Theta_{t} = \Theta_{t-1} - \frac{\alpha}{\sqrt{G_{t}+\epsilon}}g_{t,i}$

$G_t = 0.9E_{t-1}[g^2] + 0.1g_t^2$

$E_{t-1}[g^2] = \frac{1}{t-1} \sum_{i=1}^{t-1}{g_i^2}$

RMSProp引入 $E_{t-1}[g^2]$ 计算前 $t - 1$ 轮梯度平方的平均值。
如此，仅仅计算各方向梯度在之前时刻的平均值，可缓解梯度下降过快的现象。

5 Adam

Adam将Momentum和RMSProp两种方式进行结合，使得参数更新时既有一定惯性沿着之前的方向，同时更新时可在各方向有不同的更新幅度。

该算法在进行参数更新时的计算方式为
$m_t = \beta_1m_{t-1} + (1-\beta_1)g_t$

$\hat{m}_t = \frac{m_t}{1-\beta_1} = \frac{\beta_1}{1-\beta_1}m_t+g_t$

$v_t = \beta_2v_{t-1} + (1-\beta_2)g_t^2$

$\hat{v}_t = \frac{v_t}{1-\beta_2} = \frac{\beta_2}{1-\beta_2}v_t+g_t^2$

$\Theta_t = \Theta_{t-1} - \frac{\alpha}{\sqrt{\hat{v}_t+\epsilon}} \hat{m}_t$

$m_t, v_t$ 分别是对梯度的一阶矩估计和二阶矩估计。
$\hat m_t, \hat v_t$ 是对 $m_t, v_t$ 的修正。
Adam算法的提出者建议 $\beta_1, \beta_2$ 的默认值为0.9和0.999， $\epsilon$ 默认为 $10^{-8}$ 。
在数据比较稀疏的时候，adaptive的方法能得到更好的效果。

Anycall201

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
3
评论
机器学习算法（四）- 梯度下降法

文章目录1 SGD2 Momentum3 Adagrad在对模型优化时，希望通过梯度下降法使得模型的损失函数降低。目前主要的梯度下降法有SGD、Momentum、Adagrad、RMSProp、Adam几种，接下来将详细讨论这几种方法以及他们的优缺点。1 SGD随机选取一个样本的损失来近似整体样本的平均损失。其优点在于：收敛速度快。其缺点在于：容易收敛到局部最优，或被困在鞍点。对初始学习率的选择依赖度较高，因该算法参数的更新幅度固定，无法主动随着迭代次数更新。各方向学习率相同，但在实
复制链接

扫一扫