深度学习中的优化函数optimizer SGD Adam AdaGrad RMSProp

donkey_1993

于 2022-06-10 14:11:44 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习人工智能网络优化 optimizer CNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/donkey_1993/article/details/125216190

深度学习专栏收录该内容

64 篇文章

订阅专栏

本文详细介绍了深度学习中常用的优化算法，包括BGD、SGD、MBGD、Momentum、Nesterov Momentum、AdaGrad、RMSProp和Adam。这些算法在训练模型时通过调整学习率和考虑历史梯度信息来提高收敛速度和效果。其中，Adam综合了多种优化策略，成为现代深度学习的首选优化算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当前深度学习中使用到的主流的优化函数有：

1. BGD（Batch Gradient Descent）,SGD（Stochastic Gradient Descent）和MBGD（Mini-Batch Gradient Descent）

2. Momentum & Nesterov Momentum

3. AdaGrad

4. RMSProp

5. Adam

1. BGD（Batch Gradient Descent）,SGD（Stochastic Gradient Descent）和MBGD（Mini-Batch Gradient Descent）

这三类优化算法是最早的优化算法，它们之前的不同之处是训练时输入图片数量不同。

1.1 BGD（Batch Gradient Descent）

BGD是采用整个训练集的数据来计算损失函数对参数的梯度。计算公式如下所示：

$\theta = \theta -\alpha \cdot \Delta L(\theta )$

$\theta$ 表示当前我们需要更新的模型参数， $\alpha$ 表示当前的学习率， $\Delta L(\theta )$ 表示 $\theta$ 在损失函数上的偏导数。

该算法的优缺点：每次需要计算整个数据集的梯度，计算量很大，大量的训练数据很难实现。对于损失函数是凸函数来说可以把模型优化到全局最优点的位置，对于损失函数是非凸函数来说很容易把模型优化到局部极小点。

1.2 SGD（Stochastic Gradient Descent）

SGD则是在训练过程中每次输入一张图片进行训练，这样不会像BGD一样需要大量的计算资源。计算公式如下所示：

$\theta =\theta -\alpha \cdot \Delta L(\theta ,(x^{i},y^{i}))$

公式和BGD一致，只是每次处理 $(x^{i},y^{i})$ 这一张图片。

该算法的优缺点：优点是计算量小，计算速度快，又概率跳出BGD中提到的局部极小点。缺点是训练过程中损失函数波动很大，容易困在鞍点，对噪声特别敏感（因为每次只输入一张图片，每张图片的质量参差不齐）。

1.3 MBGD（Mini-Batch Gradient Descent）

MBGD在训练时每次输入小批量的数据进行训练。这样既可以不像BGD那样每次输入所有数据导致计算太大，又可以解决SGD每次输入一张图片导致训练损失急剧波动的问题。计算公式如下所示：

$\theta =\theta -\alpha \cdot \Delta L(\theta ,(x^{i:i+n},y^{i:i+n}))$

该算法的优缺点：优点是计算效率高，收敛稳定。缺点是需要不断调整学习率，也是容易被困在鞍点处。

2. Momentum & Nesterov Momentum

2.1 Momentum

Momentum动量，模拟物理中的物体运动惯性。当模型参数一直朝某个方向运动是，我们可以加快运动的步伐，当运行方向发生改变时我们就减慢朝之前运动方向的步伐。计算公式如下所示：

$v_{t} = \gamma \cdot v_{t-1} + \alpha \cdot \Delta L(\theta )$

$\theta =\theta - v_{t}$

Momentum会观察前面的历史梯度，当前梯度如果和历史梯度一致，就会增强这个方向梯度下降的力度，如果当前梯度和历史梯度不一致，那么就会减弱当前方向梯度下降的力度。

2.2 Nesterov Momentum

在Momentum基础上做了该进，在梯度下降过程中，我们希望知道前面的梯度是否和当前的梯度一致，如果不一致那么我们可以提前进行减速操作。相当于增加了预测的功能。公式如下所示：

$v_{t} = \gamma \cdot v_{t-1} + \alpha \cdot \Delta L(\theta +\gamma \cdot v_{t-1})$

$\theta =\theta - v_{t}$

$\Delta L(\theta +\gamma \cdot v_{t-1})$ 就表示该算法计算 $\theta$ 后面的位置的梯度，做了一个位置的展望梯度计算。

3. AdaGrad

前面的优化算法都是使用固定的学习率进行梯度优化，AdaGrad则是在训练中对学习率进行自动调整，对于出现频率较高的参数使用较低的学习率，出现频率较少的参数使用较高的学习率。计算公式如下所示：

$\theta = \theta -\frac{\alpha }{\sqrt{G+\epsilon }}\cdot \Delta L(\theta )$

上面公式是AdaGrad的整体算法。G表示对角矩阵，每个对角线的数据对应 $\theta$ 参数从第一次到第N次的训练梯度值， $\epsilon$ 是一个平滑项，防止分母为0。

该算法的优缺点：优点是自动调整学习率，非常适合处理稀疏的数据（训练样本数量不均）。缺点是G的数值会随着迭代的次数不断得增加，从而造成梯度消失的问题，使得训练提前结束。

4. RMSProp

RMSProp是对AdaGrad的算法改进，Adagrad是累加之前所有的梯度平方，RMSProp增加计算对应的平均值，缓解学习率飞速下降的问题。

$g=\Delta L(\theta )$

$E[g^{2}]_{t} = \gamma \cdot E[g^{2}]_{t-1} + (1-\gamma )\cdot g^{2}$

$\theta =\theta -\frac{\alpha }{\sqrt{E[g^{2}]_{t}+\epsilon }}\cdot g$

$E$ 函数表示求当前累加梯度的平均值。第二个公式表示之前的累加梯度平均值加上当前梯度就是当前梯度的衰减平均值。

5. Adam

Adam是对前面算法的一个结合，既存储了过去梯度的平方指数衰减平均值，也保存了过去梯度的指数衰减平均值。公式如下所示：

$g_{t}=\Delta L(\theta _{t})$

$m_{t} = \beta_{1} \cdot m_{t-1} + (1-\beta _{1})\cdot g_{t}$

$v_{t} = \beta _{2}\cdot v_{t-1} + (1-\beta _{2})\cdot g_{t}^{2}$

如果m和v被初始化为0，会向0进行偏置，最后对m和v做了偏差矫正。偏差矫正公式为：

$m_{t} = \frac{m_{t}}{1-\beta _{1}}$

$v_{t} = \frac{v_{t}}{1-\beta _{2}}$

最后Adam的梯度更新公式如下所示：

$\theta _{t}=\theta _{t-1}-\frac{\alpha }{\sqrt{v_{t-1}+\epsilon }}\cdot m_{t-1}$

综上就是Adam的整体算法公式，结合了上面优化算法的优点，可以有效处理稀疏数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。