简单介绍神经网络中不同优化器的数学原理及使用特性【含规律总结】

Yooooung_Lee

已于 2023-09-13 10:21:09 修改

阅读量483

点赞数 1

分类专栏： TD_BrainStrom 文章标签：神经网络机器学习人工智能

于 2023-09-12 14:56:10 首次发布

本文链接：https://blog.csdn.net/lixiaomie01/article/details/132831837

版权

TD_BrainStrom 专栏收录该内容

13 篇文章 2 订阅

订阅专栏

当涉及到优化器时，我们通常是在解决一个参数优化问题，也就是寻找能够使损失函数最小化的一组参数。当我们在无脑用adam时，有没有斟酌过用这个是否合适，或者说凭经验能够有目的性换用不同的优化器？是否用其他的优化器可以更好的解决问题？那我就介绍解释几种常用的优化器的基本原理：

随机梯度下降（SGD）：

SGD 是最基本的优化算法之一。它通过计算当前位置的梯度（即损失函数对参数的导数），然后朝着梯度的反方向更新参数。数学上可以表示为：

$w = w - α \cdot \nabla J (w)$

其中， $w$ 是待优化的参数， $\alpha$ 是学习率， $\nabla J(w)$ 是损失函数关于参数的梯度。
动量优化器（Momentum）：

Momentum 在 SGD 的基础上引入了动量项，它可以理解为模拟物体在空间中运动的物理量。这个动量项会考虑之前的更新，从而使更新方向在一定程度上保持一致。数学上可以表示为：

$v=\beta⋅v+(1−\beta)⋅ \nabla J(w)$

$w = w - α \cdot v$

其中， $v$ 是动量， $\beta$ 是动量因子，控制之前更新的影响程度。
AdaGrad：

AdaGrad 是自适应学习率的一种算法。它会根据参数的历史梯度调整学习率，使得对于稀疏数据来说可以使用一个更大的学习率，而对于频繁出现的数据则会使用较小的学习率。数学上可以表示为：

$\frac{\alpha}{\sqrt{G + \epsilon}} \cdot \nabla J(w)$

其中， $G$ 是梯度的平方和的累积， $\epsilon$ 是一个很小的数，防止除零错误。
RMSprop：

RMSprop 是 AdaGrad 的一个变体，它引入了一个衰减系数 $\beta$ ，用来控制历史梯度的权重。这使得 RMSprop 更加平滑地调整学习率。数学上可以表示为：

$\beta \cdot G + (1 - \beta) \cdot (\nabla J(w))^2$

$\frac{\alpha}{\sqrt{G + \epsilon}} \cdot \nabla J(w)$

其中， $G$ 是平方梯度的指数加权移动平均。
Adam：

Adam 结合了 Momentum 和 RMSprop 的特性，是一种同时考虑动量和自适应学习率的优化器。它可以动态地调整每个参数的学习率，并且可以保持更新方向的一致性。Adam 还引入了偏差修正，以解决初始训练时的偏差问题。数学上可以表示为：

$\beta_1 \cdot m + (1 - \beta_1) \cdot \nabla J(w)$

$\beta_2 \cdot v + (1 - \beta_2) \cdot (\nabla J(w))^2$

$\hat{m} = \frac{m}{1 - \beta_1^t}$

$\hat{v} = \frac{v}{1 - \beta_2^t}$

$\frac{\alpha}{\sqrt{\hat{v} + \epsilon}} \cdot \hat{m}$

其中， $m$ 和 $v$ 分别是动量和平方梯度的移动平均， $\beta_1$ 和 $\beta_2$ 是衰减系数， $t$ 是当前迭代次数， $\epsilon$ 是避免除零错误的小数。

其实，每种优化器都有其适用的场景，具体的选择需要根据问题的特性和实际实验的结果来决定。
如果你真的对优化器的数学原理不感冒，只是一个最小白的神经网络构建者，那么我尝试总结几条，最浅显易懂的优化器特征，以供查阅：

随机梯度下降（SGD）：这是最基本的优化算法之一，它在每个训练步骤中沿着梯度的反方向更新权重。它有时候可能需要更多的调参工作来获得好的性能。
动量优化器（Momentum）：当需要考虑前一次梯度调整对后续修正的影响时，这个方法不错。Momentum 的参数 momentum 控制了之前梯度的影响程度，一般取值在 0.8 到 0.9 之间。
Adagrad：Adagrad 会为不经常更新的参数提供更大的学习率，适合处理稀疏数据。
RMSprop：与 Adam 类似，RMSprop 也是自适应学习率的一种算法。在一些情况下，它可能会比 Adam 更好。
Adam：Adam 通过自适应调整学习率来提高训练效率。它通常对于大多数问题都是一个良好的默认选择。
Adadelta：Adadelta 是一种自适应学习率的优化器，可以自动调整学习率。
Nadam：Nadam 是结合了 Nesterov 动量的 Adam 变体，通常在训练深度神经网络时表现良好。
FTRL：FTRL 是针对线性模型优化的一种算法，对于大规模线性模型可以很有效。