momentum动量算法详解

最新推荐文章于 2024-08-06 15:30:00 发布

小楞

最新推荐文章于 2024-08-06 15:30:00 发布

阅读量4.1k

点赞数 1

分类专栏：深度学习知识

本文链接：https://blog.csdn.net/qq_33270279/article/details/102796812

版权

本文深入解析momentum动量算法，通过原理分析揭示其如何减少梯度震荡并加速模型训练。对比SGD，动量算法在面对Hessian矩阵病态情况时能更稳定地向最小值前进，利用历史梯度信息调整当前梯度的影响。同时，介绍了在PyTorch中SGD+Momentum的实现。

摘要由CSDN通过智能技术生成

momentum动量算法详解

1.原理

先看作用：

保留历史梯度对现有梯度的影响，具有减小梯度震荡，加速模型训练的作用。

再看解释：
在这里插入图片描述
如图所示，红色为SGD+Momentum。黑色为SGD。可以看到黑色为典型Hessian矩阵病态的情况，相当于大幅度的徘徊着向最低点前进。

而由于动量积攒了历史的梯度，如点P前一刻的梯度与当前的梯度方向几乎相反。因此原本在P点原本要大幅徘徊的梯度，主要受到前一时刻的影响，而导致在当前时刻的梯度幅度减小。

直观上讲就是，要是当前时刻的梯度与历史时刻梯度方向相似，这种趋势在当前时刻则会加强；要是不同，则当前时刻的梯度方向减弱。

2.算法实现

算法原理：

在这里插入图片描述

pytorch-SGD+Momentum源码：

class SGD(Optimizer):
    .... #函数注释

    def __init__(self, params, lr=required, momentum=0, dampening=0,
                 weight_decay=0, neste

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小楞

关注关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

优化算法-momentum(动量法)

DevilXiao

03-13

5278

关于梯度下降的三个算法：梯度下降，随机梯度下降，以及小批量皮杜下降已经在该篇博文中介绍：https://blog.csdn.net/weixin_42109859/article/details/104822335 但对梯度下降使用同一固定不变的超参数会引发一些问题。例如当我们的目标函数为f(x)=0.1x12+2x22f(\boldsymbol{x})=0.1x_1^2+2x_2^2f(x)=...

优化算法--momentum

zenglaoshi的博客

11-25

2327

momentum 梯度下降或随机梯度下降都是目标函数在自变量当前位置下降最快的方向，然而，每次迭代都沿着最陡方向并且只考虑当前位置，会使得目标函数很容易陷入局部最小值和鞍点。可以看到，同一位置上，目标函数在竖直方向（x2x_2x2轴方向）比在水平方向（x1x_1x1轴方向）的斜率的绝对值更大。因此，给定学习率，梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那...

参与评论您还未登录，请先登录后发表或查看评论

Momentum算法

小杨的博客

09-22

3428

Momentum的含义是‘动量’ # 为了解决SGD随机梯度下降算法的缺点，引入了Momentum # v表示在梯度方向上的受力 import numpy as np class Momentum: def __init__(self, learning_rate=0.01, momentum=0.9): self.learning_rate = learning_...

动量法(Momentum)

最新发布

LS_Ai的博客

08-06

989

动量法通过在梯度下降中引入动量项，能够加速收敛，并减少更新过程中的震荡。这使得动量法在许多优化问题中表现出色，尤其是在复杂函数的优化中。通过直观的图形展示，我们可以更好地理解动量法的优化过程和效果。

深度学习：算法优化之动量算法（Momentum）

m0_58475958的博客

08-01

4870

1.原理运用物理学上的动量思想，在梯度下降的问题中引入动量项 mmm 和折扣因子 γ\gammaγ，公式为：mt=γmt+1m_t=\gamma m_{t+1}mt=γmt+1其中 mmm 是动量项mmm的指数加权平均后的值，γ\gammaγ表示历史梯度的影响力，也就是权重值，γ\gammaγ越大，权重越大。从直观上看，如果当前时刻的梯度与历史梯度方向趋近，这种趋势会在当前时刻加强，否则减弱。 2.指数加权平均在分析动量算法之前，我们先来了解指数加权平均的含义。假定给一个序列，例如北京一年每

【优化算法】Momentum

weixin_43872912的博客

03-25

1324

引入一个参数自然有它的原因，那这里引入动量的原因是什么：类似这张图，垂直方向的斜率比水平方向的斜率大很多，会导致很多没必要的偏移量，加入一下动量因子可以减少偏移量。动量法与SGD不同的点在于，它保存了历史的梯度，就像图上画的，B点实际下降方向是A点下降方向和B点下降方向的共同决定的。 # coding=utf-8 """ 基于小批量梯度下降来实现的Momentum（动量）参考：https://blog.csdn.net/bvl10101111/article/details/72615621 作用

动量法（Momentum）

m0_51200050的博客

06-30

1151

动量法通过引入动量项，使得参数更新不仅依赖于当前的梯度，还考虑了之前梯度的累积效果，从而加速收敛并减少参数更新时的震荡。通过具体数据示例，可以清楚地看到动量法如何在每次迭代中逐步更新动量项和参数，使模型逐步逼近最优解。

Momentum优化算法：动量在参数更新中的作用

本章将介绍优化算法的基本概念以及动量优化算法的由来与基本原理。 ##### 1.1 优化算法在深度学习中的重要性在深度学习中，优化算法扮演着至关重要的角色。通过优化算法，模型可以根据损失函数的梯度逐步调整参数...

深度学习笔记之优化算法(四)Nesterov动量方法的简单认识

静静的学习就好

10-08

2277

上一节对动量法进行了简单认识，本节将介绍Nesterov动量方法。

深度学习笔记之优化算法(三)动量法的简单认识

静静的学习就好

10-07

634

上一节介绍了随机梯度下降(Stochastic Gradient Descent,SGD)，本节将介绍动量法。

吴恩达深度学习Mini-batch Gradient Descent 以及Momentum、Adam算法Python亲测调通版本

12-27

自己微调版本，含注释和数据集，一个程序就能运行，是吴恩达深度学习课程的课后作业

正交表matlab代码-MomentumRNN:MomentumRNN的代码库

05-28

常规表matlab代码“ MomentumRNN：将动量集成到递归神经网络中”论文中的实验代码要求此代码已在NVIDIA Pytorch Docker容器版本19.09中进行了测试。可以按以下方式从NVIDIA GPU Cloud中提取此容器： docker pull nvcr.io/nvidia/pytorch:19.09-py3 有关NVIDIA Pytorch容器19.09中包含的软件包的详细信息，请访问。除了这些软件包之外，还需要以下软件包： Sklearn： pip install -U scikit-learn --user OpenCV： pip install opencv-python 进度： pip install progress 为了重现我们论文中的图，需要以下软件包：熊猫： pip install pandas Seaborn： pip install seaborn 要在不使用NVIDIA Pytorch容器的情况下运行我们的代码，至少需要以下软件包：包含Python 3.6环境的Ubuntu 18.04 PyTorch 1.2.0 NVIDIA

momentum_SAS代码 - 副本_动量效应_

09-29

可以用来分析研究股票市场上的动量效应，更好的帮助大家解决难题

momentum-clone

04-27

该项目是通过引导的。您将在下面找到一些有关如何执行常见任务的信息。您可以在找到本指南的最新版本。目录自动格式化代码更改页面<title> 安装依赖项导入组件代码分割添加样式表后处理CSS 添加CSS预处理器（Sass，Less等）添加图像，字体和文件使用public文件夹更改HTML 在模块系统之外添加资产何时使用public文件夹使用全局变量添加引导程序使用自定义主题增加流量添加路由器添加自定义环境变量在HTML中引用环境变量在Shell中添加临时环境变量在.env添加开发环境变量我可以使用装饰器吗？使用AJAX请求获取数据与API后端集成节点 Ruby on Rails 在开发中代理API请求配置代理后出现“无效的主机头”错误手动配置代理配置WebSocket代理在开发中使用HTTPS 在服务器上生成动态<met

【动量法详解】：如何在神经网络训练中利用动量

[【动量法详解】：如何在神经网络训练中利用动量](https://fkti5301.github.io/exam_tickets_ai_2018_novakova/resources/imgs/t20_1.jpg) # 1. 动量法在神经网络训练中的作用与优势神经网络训练是一个复杂的优化...

momentum 动量

Major_S的博客

01-04

313

momentum 动量

优化算法篇（二）——Momentum

小白一直白

11-12

1729

目录前言BGD 使用动量SGD 使用动量MBGD 使用动量总结前言 Momentum是在前面简单的梯度下降上添加一个动量，从物理角度上看就是给了它一个惯性，使得在一直下落的路上，速度越来越快，而在遇到局部最优，有可能借着惯性冲出去。优点：使得物体的震荡减弱，更快地运动到最优解 grad1=β∗grad0+(1−β)∗∂loss∂θjgrad_{1} = \beta*grad_{0} + (1- \beta)*\frac{\partial loss}{\partial\theta_{j}}grad1

梯度下降优化算法Momentum

qq_43374104的博客

06-25

4548

标题，基本原理，程序实现，总结一. 基本原理 1.1 引入 Momentum算法在原有的梯度下降法中引入了动量，从物理学上看，引入动量比起普通梯度下降法主要能够增加两个优点。首先，引入动量能够使得物体在下落过程中，当遇到一个局部最优的时候有可能在原有动量的基础上冲出这个局部最优点；并且，普通的梯度下降法方法完全由梯度决定，这就可能导致在寻找最优解的过程中出现严重震荡而速度变慢，但是在有动量的条件下，物体运动方向由动量和梯度共同决定，可以使得物体的震荡减弱，更快地运动到最优解。 1.2 指数加权移动平均

深度学习中的梯度下降优化算法详解

- **动量法（Momentum）**：引入动量项，用过去若干步的梯度信息来加速收敛，有助于跳出局部最优。 - **Nesterov Accelerated Gradient (NAG)**：对动量法的一种改进，使得模型能够“预知”梯度的方向，更好地控制...