各种优化器Optimizer原理：从SGD到AdamOptimizer

最新推荐文章于 2021-08-17 22:28:55 发布

BIT可达鸭

最新推荐文章于 2021-08-17 22:28:55 发布

阅读量7.6k

点赞数 17

分类专栏： ▶ 深度学习-计算机视觉文章标签：神经网络算法深度学习机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44936889/article/details/103797860

版权

▶ 深度学习-计算机视觉专栏收录该内容

155 篇文章 1442 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了优化器在神经网络训练中的作用，涵盖了基本的梯度下降法，包括标准梯度下降、批量梯度下降和随机梯度下降，动量优化法，如Momentum和NAG，以及自适应学习率优化算法，如Adam、AdaGrad和RMSProp。通过对比分析，揭示了各种优化器的核心思想、优缺点和适用场景。

摘要由CSDN通过智能技术生成

各种优化器Optimizer原理：从SGD到AdamOptimizer

（一）优化器Optimizer综述：
（二）基本梯度下降法
（三）动量优化法
（四）自适应学习率优化算法
（五）各种优化器的可视化比较：
关注我的公众号：

在这里插入图片描述

（一）优化器Optimizer综述：

优化器是神经网络训练过程中，进行梯度下降以寻找最优解的优化方法。不同方法通过不同方式（如附加动量项，学习率自适应变化等）侧重于解决不同的问题，但最终大都是为了加快训练速度。

对于这些优化器，有一张图能够最直接地表现它们的性能：
在这里插入图片描述

这里就介绍几种常见的优化器，包括其原理、数学公式、核心思想及其性能；

这些优化器可分为三大类：

基本梯度下降法，包括标准梯度下降法(GD, Gradient Descent)，随机梯度下降法(SGD, Stochastic Gradient Descent)及批量梯度下降法(BGD, Batch Gradient Descent)；
动量优化法，包括标准动量优化方法（MomentumOptimizer)、牛顿加速梯度动量优化方法(NAG, Nesterov accelerated gradient)等；
自适应学习率优化算法，包括AdaGrad算法，RMSProp算法，Adam算法等；

&#x

了解本专栏

超级会员免费看

关注

17
点赞
踩
62

收藏

觉得还不错? 一键收藏
打赏
4
评论
各种优化器Optimizer原理：从SGD到AdamOptimizer

各种优化器Optimizer原理：从SGD到Adam Optimizer（一）优化器Optimizer综述：（二）基本梯度下降法2.1 标准梯度下降法（Gradient Descent）2.1.1 数学公式：2.1.2 优缺点：3.1 批量梯度下降法（BGD, Batch Gradient Descent）3.1.1 数学公式：3.1.2 优缺点：（一）优化器Optimizer综述：优化器是...
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BIT可达鸭 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。