优化器、优化算法Optimizer总结

最新推荐文章于 2024-08-24 09:48:55 发布

one-莫烦

最新推荐文章于 2024-08-24 09:48:55 发布

阅读量248

点赞数

分类专栏：深度学习机器学习文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/weixin_42127358/article/details/122860848

版权

深度学习同时被 2 个专栏收录

21 篇文章 2 订阅

订阅专栏

机器学习

16 篇文章 3 订阅

订阅专栏

本文探讨了三种梯度下降法：批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降，分析了它们的优缺点。SGD虽训练速度快但准确度可能下降，而小批量梯度下降则在速度和精度间取得平衡。此外，还介绍了动量法，通过引入物理概念以加速收敛并减少震荡。最后，讨论了自适应学习率优化算法，如AdaGrad、Adadelta、RMSprop和Adam，这些算法能自适应调整学习率以提高训练效率。

摘要由CSDN通过智能技术生成

1 梯度下降法

在这里插入图片描述

1.1 批量梯度下降

在这里插入图片描述

1.2 随机梯度下降

在这里插入图片描述
特点是SGD的噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快，但是准确度下降，并不是全局最优。虽然包含一定的随机性，但是从期望上来看，它是等于正确的导数的。

缺点：

SGD 因为更新比较频繁，会造成 cost function 有严重的震荡。
BGD 可以收敛到局部极小值，当然 SGD 的震荡可能会跳到更好的局部极小值处。
选择合适的learning rate比较困难，学习率太低会收敛缓慢，学习率过高会使收敛时的波动过大

1.3 小批量梯度下降

在这里插入图片描述

2 动量法

2.1 Momentum

在这里插入图片描述

当我们将一个小球从山上滚下来时，没有阻力的话，它的动量会越来越大，但是如果遇到了阻力，速度就会变小。加入的这一项，可以使得梯度方向不变的维度上速度变快，梯度方向有所改变的维度上的更新速度变慢，这样就可以加快收敛并减小震荡。

3 自适应学习率优化算法

在机器学习中，学习率是一个非常重要的超参数，但是学习率是非常难确定的，虽然可以通过多次训练来确定合适的学习率，但是一般也不太确定多少次训练能够得到最优的学习率，玄学事件，对人为的经验要求比较高，所以是否存在一些策略自适应地调节学习率的大小，从而提高训练速度。目前的自适应学习率优化算法主要有：AdaGrad算法，RMSProp算法，Adam算法以及AdaDelta算法。