深度学习常用优化器优缺点

最新推荐文章于 2025-03-05 18:02:37 发布

xia.sir

最新推荐文章于 2025-03-05 18:02:37 发布

阅读量2.9k

点赞数

本文链接：https://blog.csdn.net/weixin_41595062/article/details/86620588

版权

随机梯度下降（SGD）：

SGD指的是mini batch gradient descent

简单好理解，但是其存在的缺陷是，只有当自变量是一个维度的时候，它的前进方向才是真正梯度下降的方向。当存在多维变量时，若某一维度的梯度过大，会使得下降方向在该梯度方向的分量过大，偏离了真正的轨道。

优点：针对大数据集，训练速度很快。从训练集样本中随机选取一个batch计算一次梯度，更新一次模型参数。

缺点：

1. 选择恰当的初始学习率很困难。

2. 学习率调整策略受限于预先指定的调整规则。

3. 相同的学习率被应用于各个参数。

4. 高度非凸的误差函数的优化过程，如何避免陷入大量的局部次优解或鞍点，即容易收敛到局部最优

Momentum

其公式意义为，如果一直朝着某个方向前进，那么在这个方向上的梯度会越来越大。当使用SGD时，会出现过度振荡，徘徊前进，而在这个过程中其实那个梯度分量过大的方向的梯度其实在慢慢减小的，原本梯度分量较小的方向在慢慢增大，动量思想

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xia.sir

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度学习-Optimizer优化器的比较

Vivinia的博客

07-29

591

深度学习中常用的优化器一般有如下几种： BGD（批量梯度下降法，Batch Gradient Descent）：是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。优点：由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。缺点：当样本数目 mm 很大时，每迭代一步都需要对所有样本计算，训练过...

【机器学习】优化器之Adam

奥古斯都

05-30

7432

上一个章节说了SGD和动量版本的SGD，这个优化算法目前也是比较常用的一个优化算法，但是它还是存在一些问题的，因此后面又出了几个不同的算法，比如AdaGrad、RMSProp、Adam等算法。

参与评论您还未登录，请先登录后发表或查看评论

深度学习，各类优化器优缺点总结。

08-09

深度学习，各类优化器优缺点总结,包括：标准梯度下降法，随机梯度下降法，批量梯度下降法等11种方法。。。

常用的优化器及其优缺点

菜鸟驿站

09-15

9042

1. SGD 在这里SGD和mini-batch是同一个意思，抽取m个小批量(独立同分布)样本，通过计算他们的平均梯度均值。缺点： (1) leraning rate 选择太小，收敛速度会很慢，如果太大，则loss function会在极小值附近不停的震荡，甚至片偏离。 (2) 容易被困在鞍点。 2. Momentum（动量）要是当前时刻的梯度与历史时刻梯度方向相...

Adam优化器

m0_73426548的博客

03-05

641

是一种结合和自适应学习率思想的优化算法，由于 2014 年提出。它在深度学习中被广泛应用，尤其适合大规模数据和非凸优化问题，被誉为“几乎万能”的优化器。

深度学习优化器的对比

qq_41004007的博客

09-05

2422

转载：https://blog.csdn.net/winycg/article/details/79363169 梯度下降框架给定优化的模型参数θ∈Rdθ∈Rd和目标函数J(θ)J(θ)后，算法沿着梯度∇θJ(θ)∇θJ(θ)的相反方向更新θθ最小化J(θ)J(θ)。学习率ηη决定了每一时刻的更新步长。对某一步，可以用下述步骤描述梯度下降流程： 1.计算目标函数的梯度 gt=∇θJ(θ...

【深度学习】优化器

Dong_ZH的博客

02-23

7149

优化器是在深度学习的反向传播过程中，指引损失函数（目标函数）的各个参数往正确的方向更新合适的大小，使得更新后的各个参数让目标函数不断逼近全局最小点。

深度学习+优化器+详解各种常用优化器+测试各优化器的结果作为文章的补充

05-29

优化器文章详细介绍了优化器在深度学习中的作用，按照出现时间的顺序依次介绍各种优化器的实现原理附带个人理解的通俗数学公式，而且有torch中封装好的函数类用法和参数介绍等等，也包括优化器各自的优缺点，以及...

深度学习常用优化算法研究.pdf

08-18

本文将对深度学习中常用的优化算法进行深入的研究，并探讨在不同应用场景下的算法选择与优化技巧。首先，梯度下降（GD）算法是深度学习中最基础的优化方法之一。通过计算损失函数关于模型参数的梯度，然后沿着梯度...

深度学习中的优化器

tonydandelion2014的博客

03-28

3549

介绍一些深度学习的优化器 参考覃秉丰教程梯度下降法则标准梯度下降法：计算所有样本汇总误差，根据总误差来更新权值随机梯度下降法：先随机抽取一个样本来计算误差，再根据这个误差来更新权值批量梯度下降法：从总样本中选取一个批次（batch）（例如10000个样本，随机选取1中的100个样本作为batch），然后计算这个batch的总误差，再根据这个误差来更新权值随机梯度下降法：带Mome

深度学习中优化器optimizer对比

不可能打工的博客

02-24

1790

优化器是深度学习领域的重要组成模块之一，执行深度学习任务时采用不同的优化器会产生截然不同的效果。这也是研究者们不遗余力「炼丹」的原因之一。常见的优化算法包括梯度下降(变体 BGD、SGD 和 MBGD)、Adagrad、Adam、Momentum 等，如此繁多的优化器应该如何做出抉择呢？为机器学习项目选择好的优化器不是一项容易的任务。流行的深度学习库(如 PyTorch 或 TensorFLow...

论强化学习的根本缺陷

weixin_34185560的博客

07-25

1100

雷锋网 AI 科技评论按：本文来自斯坦福大学博士生Andrey Kurenkov在The Gradient上发表的文章。在本文中，我们将讨论人工智能的一个核心领域——强化学习——的局限性。在这个过程中，起初我们将通过一个有趣的例子提出我们要讨论的问题，然后向大家介绍一套方法引入深度学习相关的先验知识和说明，最终得出一个重要结论。 ...

【论文笔记】基于强化学习的车间调度问题研究简述

m0_48948682的博客

06-14

3246

较低的时间响应、较高的模型泛化性在本文中，针对强化学习+车间调度，提出以下内容：多数的车间调度问题属于NP完全问题，无法在多项式时间内获得全局最优解传统方法：优点——局部最优解、较高准确度；缺点——时间响应、泛化性难以达到要求强化学习应用在车间调度上的困难：很多实际资源分配和调度问题的抽象模型目标：确定每台机器的工件加工顺序和每个工序的具体开工时间，以使得所有工件的总加工完成时间最短。公式表示。L=min⁡(max⁡1...

深度强化学习几大尚未解决问题

超级帅的一个小伙子的博客

03-29

1251

收敛困难，调参困难。 DRL算法通常需要海量的Agent和环境的交互数据，而这些数据只有在模拟场景下（游戏）才很充足并且廉价，想象一下自动驾驶和机器人领域，如果拿真的汽车和机器人去做Action，万一是负奖赏的Action，那损失也太大点了。奖赏函数需要定义的很准确，这其实很难。最重要的是：很多应用，比较成熟的方法效果都不比DRL差，所以公司不愿意去冒这个风险吧。 ...

在机器学习项目中该如何选择优化器

abcdefg90876的博客

08-19

416

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”作者：Philipp Wirth编译：ronghuaiyang导读几种流行的优化器的介绍以及优缺点分析，并给出了选择优化器的几点...

Adam优化器（通俗理解）

热门推荐

BeiErGeLaiDe的博客

07-29

7万+

Adam，名字来自：Adaptive Moment Estimation，自适应矩估计。是2014年提出的一种万金油式的优化器，使用起来非常方便，梯度下降速度快，但是容易在最优值附近震荡。竞赛中性能会略逊于SGD，毕竟最简单的才是最有效的。但是超强的易用性使得Adam被广泛使用。...

SGD，Adam，AdamW，LAMB优化器

flyingluohaipeng的博客

03-31

9213

BERT 预训练包括两个阶段：1）前 9/10 的训练 epoch 使用 128 的序列长度，2）最后 1/10 的训练 epoch 使用 512 的序列长度。优化器是用来更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值，从而最小化(或最大化)损失函数。优点：简单性，在优化算法中没有太多的参数需要调整，通过少量的计算量就可以获得比较好的结果。为预先设定的超参数，分别代表参数调整的下界和上界。这一简单的调整所带来的实际效果非常显著。随机梯度下降是最简单的优化器，它采用了简单的梯度下降法，

pytorch学习笔记——优化器之Adam

weixin_44598554的博客

11-03

3318

在深度学习中，优化器是非常重要的一部分。它用于调整模型的参数，以此来最小化损失函数。PyTorch是一个广泛使用的深度学习框架，提供了许多优化器供我们选择。其中Adam是我们最常用的优化器之一。Adam，名字来自：（Adaptive Moment Estimation）自适应矩估计，是2014年提出的一种万金油式的优化器，使用起来非常方便，梯度下降速度快，但是容易在最优值附近震荡。竞赛中性能会略逊于SGD，但往往最简单的才是最有效的，超强的易用性使得Adam被广泛使用。

Adam 优化器

m0_50534425的博客

05-23

4万+

深度学习中的神经网络优化。它结合了RMSProp和Momentum两种优化算法的思想，并且对参数的更新进行了归一化处理，使得每个参数的更新都有一个相似的量级，从而提高训练效果。具体来说，Adam优化器定义了两个指数加权平均值：第一个指数加权平均值是梯度的指数加权平均值，第二个指数加权平均值是梯度的平方的指数加权平均值。1.自适应调整学习率：Adam 优化器可以根据历史梯度信息来自适应地调节学习率，使得在训练初期使用较大的学习率，能够快速收敛，在训练后期使用较小的学习率，能够更加准确地找到损失函数的最小值。

深度学习中激活函数优缺点