梯度更新方法：Momentum

最新推荐文章于 2024-08-17 23:52:28 发布

soda_water_

最新推荐文章于 2024-08-17 23:52:28 发布

阅读量1.9k

点赞数

分类专栏：深度学习理论知识

深度学习理论知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

SGD方法的一个缺点是，其更新方向完全依赖于当前的batch，因而其更新十分不稳定。解决这一问题的一个简单的做法便是引入momentum。

momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力：

Δ x t = ρ x t - 1 - η g t

其中，

ρ 即momentum，表示要在多大程度上保留原来的更新方向，这个值在0-1之间，在训练开始时，由于梯度可能会很大，所以初始值一般选为0.5；当梯度不那么大时，改为0.9。

η 是学习率，即当前batch的梯度多大程度上影响最终更新方向，跟普通的SGD含义相同。

ρ 与

η 之和不一定为1。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

soda_water_

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

梯度优化方法：BGD,SGD,mini_batch, Momentum，AdaGrad，RMSProp，Adam

qq_34229228的博客

03-25

1592

文章目录目标函数三种梯度下降优化框架1、BGD、SGD、mini_batch2、**优缺点对比：**3、**问题与挑战：**优化梯度下降法1、动量梯度下降法（Momentum）2、Nesterov Accelarated Gradient（NAG）3、Adagrad4、RMSprop5、Adaptive momentum estimation（Adam）目标函数最优化：得到使目标函数J(θ)J(\theta)J(θ)最小的θ\thetaθ的值。三种梯度下降优化框架 1、BGD、SGD、mini

动量法(Momentum)

LS_Ai的博客

08-06

1126

动量法通过在梯度下降中引入动量项，能够加速收敛，并减少更新过程中的震荡。这使得动量法在许多优化问题中表现出色，尤其是在复杂函数的优化中。通过直观的图形展示，我们可以更好地理解动量法的优化过程和效果。

参与评论您还未登录，请先登录后发表或查看评论

自监督学习中的 Contrastive Learning 对比学习（持续更新）

学渣的博客

11-12

3万+

本文粗略介绍了对比学习的基本原理以及常见方法。什么是对比学习？对比学习是一种自监督或者无监督学习的一种方法。通过对比未知样本和正负样本的相近程度，来给未知样本进行正负归类。最早运用于判定图像表征之间的相似程度。 ...

理解梯度下降：从梯度到多步迭代更新

最新发布

weixin_51524504的博客

08-17

1355

对于一个多元函数fx1x2xnfx1x2xn，其在点x1x2xnx1x2xn∇fx1x2xn∂f∂x1∂f∂x2∂f∂xn∇fx1x2xn∂x1∂f∂x2∂f∂xn∂f我们的目标是最小化函数fxyx22xyy2fxyx22xyy2。

momentum 动量

Major_S的博客

01-04

327

momentum 动量

深度学习之梯度更新的几种算法及其python实现【SGD,Momentum,Nesterov Momentum,AdaGrad,RMSProp,Adam】(无公式)

csdn_zhishui的博客

09-20

6731

梯度更新的最终目的是为了“到山最底端”，梯度更新算法优化的目的是“最稳最快的到山最底端”。图1 梯度更新模型理解图 0.SGD SGD是非常好用，经典的梯度更新算法。算法思路比较简单，直接上代码。 def sgd(w, dw, config=None): """ 单纯的sgd实现 """ if config is None: config = {...

深度学习中的自监督对比学习+MoCo三部曲+自监督模型评测方法

David's Tweet

01-19

4922

摘要在过去的很长时间里，计算机视觉领域依靠大规模的有标注数据集取得了很大的成功，特别是卷积神经网络的应用，使得视觉各子领域实现了跨越式发展，学术界和工业界开始投入大量的研究和应用，一度使大家相信，人工智能的大厦即将建成。然而，最近关于自监督学习（Self-supervised Learning，SSL）、Transformer、MLP等在学术界的研究成为热点，特别是Transformer和MLP的进击，大有要将监督学习和卷积结构拍死在沙滩上的节奏，作者相信，计算机视觉（CV）领域正在进入新的变革时代。

深度学习笔记（十三）—— 参数更新[Parameter Updates]

zeeq的博客

03-11

3790

1 SGD and bells and whistles 1.1 Vanilla update 最简单的更新形式是沿负梯度方向更新参数（因为梯度指示增加的方向，但我们通常希望最小化损失函数）。设参数x和梯度dx，最简单的更新形式如下： # Vanilla update x += - learning_rate * dx 其中learning_rate是一个超参数（一个固定常数）。 1.2 Momentum update 动量更新是另一种在深度网络上几乎总是具有更好收敛速度的方法。这个更新从物理

优化方法探讨：Momentum与RMSProp在噪声梯度下的改进

动量方法通过考虑过去梯度的积累，使得更新方向更加平滑，减少了震荡，有助于在噪声梯度中找到更稳定的下降路径。其公式表示为： \[ \mathbf{v}_t = \beta \mathbf{v}_{t-1} + \mathbf{g}_t, \quad \mathbf{w}_t = \...

逃离saddle point的方法二:momentum

09-21

而momentum方法则考虑了过去的梯度信息，通过计算过去步骤中梯度的累积平均值来更新参数。具体而言，momentum方法通过引入动量参数来保留一部分历史步骤的信息，使得在当前步骤中，更新方向不再仅仅依靠当前梯度...

Adam随机梯度下降优化：Adam随机梯度下降优化算法的Matlab实现-matlab开发

05-29

`fmin_adam` 是来自 Kingma 和 Ba [1] 的 Adam 优化算法（具有自适应学习率的梯度下降，每个参数单独使用 Momentum）的实现。 Adam 设计用于处理随机梯度下降问题；即当仅使用小批量数据来估计每次迭代的梯度时，或...

Tensorflow的梯度异步更新示例

12-20

然而，异步更新可能会引入新的问题，如梯度冲突和模型不稳定性，因此在实际应用中，可能需要使用更高级的优化器，如Momentum、RMSProp或Adam，它们能够更好地应对这种更新策略带来的挑战。此外，还有其他的分布式...

深度学习面试基础--训练参数更新方法

weixin_46343115的博客

08-02

1005

想象一下纸团在山谷和鞍点处的运动轨迹，在山谷中纸团受重力作用沿山道滚下，两边是不规则的山壁，纸团不可避免地撞在山壁，由于质量小受山壁弹力的干扰大，从一侧山壁反弹回来撞向另一侧山壁，结果来回震荡地滚下；momentum即动量，它模拟的是物体运动时的惯性，即更新的是时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。SGD就是最常听到的随机梯度下降方法，是使用参数的梯度，然后沿梯度的方向更新参数，并重读这个步骤多次，从而逐渐靠近最优参数。学习越深入，更新的幅度就越小。...

深度学习各类优化器详解（动量、NAG、adam、Adagrad、adadelta、RMSprop、adaMax、Nadam、AMSGrad）

恩泽君的博客

04-09

3万+

深度学习各类优化器详细介绍这篇文章将按照时间线详细讲解各类深度学习优化器，包括常用与不常用的，为这篇博客的个人笔记，但是本文将对每个优化器进行更加清晰的讲解，所以可以更容易理解每一个优化器，对于深度学习小白来说也可以很容易看懂。一、前言：最新的深度学习库包含各种优化梯度下降的算法，比如有caffe、keras、tensorflow、pytorch等，但是通常这些算法被当做一个黑匣子使...

无监督对比学习之MOCO 《Momentum Contrast for Unsupervised Visual Representation Learning》

weixin_42764932的博客

01-18

1万+

无监督学习如果可以建立一种通用的无监督模型，经过海量无标签数据的学习后，可以习得一个强大的特征提取器，在面对新的任务，尤其是医疗影像等小样本任务时，也能提取到较好的特征。这就是无监督学习的意义。对比学习对比学习的概念很早就有了，它是无监督学习的一种方法，但真正成为热门方向是在2020年的2月份，Hinton组的Ting Chen提出了SimCLR，用该框架训练出的表示以7%的提升刷爆了之前的SOTA，甚至接近有监督模型的效果。对比学习不需要高细粒度的还原，它所记住的事物特征，不一定是像素级别的，而是

[深度学习] --入门知识 -- 梯度相关

LY_970909的博客

05-08

786

梯度下降法、反向传播、梯度消失、梯度爆炸、神经元死亡（未完成）文章目录梯度下降法、反向传播、梯度消失、梯度爆炸、神经元死亡（未完成）前言一、梯度更新是x0=x0−μx0′x_0 = x_0-\mu x_0'x0=x0−μx0′二、反向传播三、梯度消失四、梯度爆炸五、神经元死亡总结前言经常会跟想学深度学习的朋友讲解一些入门知识，有时候也会忘记些内容，今天抽空把这些内容想到的先写下来，后续不断填坑… 一、梯度更新是x0=x0−μx0′x_0 = x_0-\mu x_0'x0=x0−μx0

简述动量Momentum梯度下降