神经网络中常用的优化器总结

Ambition_LAO

于 2024-07-24 20:51:51 发布

阅读量295

点赞数 7

文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/GDHBFTGGG/article/details/140672995

版权

神经网络可以使用多种优化器来调整模型参数以最小化损失函数。这些优化器基于不同的算法，有各自的特点和应用场景。以下是神经网络中常用的优化器总结

梯度下降（Gradient Descent）：

（1）核心点：通过计算损失函数相对于模型参数的梯度，并沿着梯度的反方向更新参数以最小化损失函数。

（2）主要作用：用于各种神经网络的参数优化。

（3）优势：简单易实现；适用于大多数优化问题。

（4）缺点：计算复杂度高，尤其是批量梯度下降；可能收敛到局部最小值；对于非凸问题表现较差。
动量梯度下降（SGD with Momentum）：

（1）核心点：通过考虑之前梯度的指数加权平均值来加速梯度下降，避免震荡。

（2）主要作用：提高梯度下降的收敛速度，减少收敛过程中的震荡。

（3）优势：加速收敛速度；减少局部最小值的影响。

（4）缺点：需要调节动量参数；对于一些问题可能不稳定。
Nesterov加速梯度（Nesterov Accelerated Gradient，NAG）：

（1）核心点：在动量梯度下降的基础上，预先更新参数来计算更精确的梯度。

（2）主要作用：进一步加速收敛，提高优化效率。

（3）优势：加速收敛；在接近最优解时表现更好。

（4）缺点：参数调节复杂；实现难度较高。
Adagrad（Adaptive Gradient Algorithm）：

（1）核心点：对每个参数进行不同程度的自适应学习率调整，较适合处理稀疏数据。

（2）主要作用：适应不同特征的稀疏数据，提高训练效果。

（3）优势：无需手动调节学习率；适合稀疏数据处理。

（4）缺点：累积梯度平方和不断增加，导致学习率过小。
Adadelta：

（1）核心点：是Adagrad的改进版本，通过限制累积的梯度来解决学习率急剧下降的问题。

（2）主要作用：自适应调整学习率，提高训练稳定性。

（3）优势：解决了Adagrad学习率下降的问题；无需手动调节初始学习率。

（4）缺点：对超参数敏感；实现复杂。
RMSprop（Root Mean Square Propagation）：

（1）核心点：通过对梯度平方的移动平均值进行归一化，调整每个参数的学习率。

（2）主要作用：自适应调整学习率，提高训练速度和稳定性。

（3）优势：解决了Adagrad的学习率问题；适用于非平稳目标。

（4）缺点：超参数选择较为复杂；对不同问题需要调整参数。
Adam（Adaptive Moment Estimation）：

（1）核心点：结合了动量和RMSprop的优点，既适应学习率又考虑了梯度的动量。

（2）主要作用：广泛用于深度学习模型的优化。

（3）优势：自适应学习率；收敛速度快；适用于大多数深度学习任务。

（4）缺点：对超参数敏感；在某些问题上可能不稳定。
Nadam（Nesterov-accelerated Adaptive Moment Estimation）：

（1）核心点：将Nesterov加速梯度引入Adam，进一步提升优化效果。

（2）主要作用：提高Adam的收敛速度和稳定性。

（3）优势：加速收敛；在某些任务中表现更优。

（4）缺点：超参数调节复杂；实现难度较高。
AMSGrad：

（1）核心点：是Adam的变种，通过保留历史最大学习率，解决了Adam可能收敛到局部极小值的问题。

（2）主要作用：改进Adam的收敛性质，增强稳定性。

（3）优势：更好的收敛稳定性；解决了Adam的一些局限。

（4）缺点：训练时间可能较长；需要调节超参数。
AdaMax：

（1）核心点：是Adam的一种变体，采用无穷范数来对梯度进行归一化，适用于稀疏梯度。

（2）主要作用：改进Adam的性能，适应稀疏梯度。

（3）优势：在稀疏梯度情况下表现良好；计算稳定。

（4）缺点：对超参数敏感；可能收敛较慢。
SGDW（SGD with Weight Decay）：

（1）核心点：在SGD基础上引入权重衰减，用于减少模型的过拟合。

（2）主要作用：增强正则化效果，防止过拟合。

（3）优势：简单有效；减少过拟合。

（4）缺点：需要调节权重衰减参数；在某些问题上可能效果有限。
AdamW：

（1）核心点：在Adam基础上引入权重衰减，改善了正则化效果。

（2）主要作用：增强正则化效果，防止过拟合。

（3）优势：结合了Adam和权重衰减的优点；减少过拟合。

（4）缺点：需要调节超参数；实现复杂。
FTRL（Follow The Regularized Leader）：

（1）核心点：一种在线学习算法，常用于处理大规模稀疏数据。

（2）主要作用：适用于大规模稀疏数据的优化。

（3）优势：适用于大规模数据集；良好的稀疏特性处理能力。

（4）缺点：实现复杂；对超参数敏感。
YellowFin：

（1）核心点：一种自适应优化器，通过自动调整学习率和动量，减少了调参工作量。

（2）主要作用：减少手动调参，提高训练效率。

（3）优势：自动调整超参数；提高训练稳定性。

（4）缺点：实现复杂；适用范围有限。
L-BFGS（Limited-memory Broyden–Fletcher–Goldfarb–Shanno）：

（1）核心点：一种二阶优化方法，使用近似的二阶导数信息，适用于小规模数据集。

（2）主要作用：提高小规模数据集的优化效果。

（3）优势：收敛速度快；适用于小规模数据集。

（4）缺点：计算复杂度高；不适用于大规模数据集。
Rprop（Resilient Backpropagation）：

（1）核心点：一种基于梯度符号的优化方法，独立调整每个参数的学习率，适用于训练速度慢的情况。

（2）主要作用：提高训练速度，适用于训练速度慢的神经网络。

（3）优势：训练速度快；无需调节全局学习率。

（4）缺点：不适用于在线学习；对噪声敏感。
Averaged SGD（ASGD）：

（1）核心点：通过对参数的移动平均值进行更新，提升了SGD的稳定性和收敛速度。

（2）主要作用：提高SGD的稳定性和收敛速度。

（3）优势：提高了稳定性；加速收敛。

（4）缺点：需要额外的存储空间；实现复杂。