深度学习优化方法-AdaGrad

最新推荐文章于 2025-03-12 20:29:03 发布

Microstrong0305

最新推荐文章于 2025-03-12 20:29:03 发布

阅读量2.9w

点赞数 7

分类专栏：深度学习深度学习文章标签：深度学习神经网络优化算法 AdaGrad SGD

本文链接：https://blog.csdn.net/program_developer/article/details/80756008

版权

AdaGrad是一种优化算法，用于深度学习和神经网络的参数更新。它通过累积梯度平方和来调整学习率，初期学习率较高，随迭代次数增加逐渐减小。这使得算法在早期迭代中能快速收敛，但后期可能因学习率过小而收敛缓慢。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

 
  “微信公众号”  
 
  本文文章同步更新在我的知乎专栏里面： 
 
深度学习优化方法-AdaGrad - Microstrong的文章 - 知乎https://zhuanlan.zhihu.com/p/38298197

   梯度下降算法、随机梯度下降算法（SGD）、小批量梯度下降算法（mini-batch SGD）、动量法（momentum）、Nesterov动量法有一个共同的特点是：对于每一个参数都用相同的学习率进行更新。 
 

   但是在实际应用中，各个参数的重要性肯定是不一样的，所以我们对于不同的参数要动态的采取不同的学习率，让目标函数更快的收敛。 
 

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Microstrong0305

关注关注

7
点赞
踩
46

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

AI学习指南深度学习篇-Adagrad的数学原理

俞兆鹏的博客

09-19

816

在深度学习的领域中，优化算法在模型训练过程中扮演着至关重要的角色。随着模型的复杂度增加，选择合适的优化算法变得愈加重要。Adagrad (Adaptive Gradient Algorithm) 是一种自适应学习率的优化算法，它能够根据参数的历史梯度自适应地调整学习率。本文将深入探讨Adagrad的数学原理，包括其计算公式、历史梯度平方的积累机制、以及如何通过这些机制来实现参数的自适应学习率。

2020-2-17 深度学习笔记8 - 深度学习中的优化3（自适应学习率算法-AdaGrad / RMSProp / Adam，二阶近似方法-牛顿法 / 共轭梯度 / BFGS）

weixin_42555985的博客

03-05

1019

第八章 深度学习中的优化官网 python实现代码 2020-2-15 深度学习笔记8 - 深度学习中的优化1（与纯优化区别-基于梯度下降，神经网络优化-下降到足够小即可） 2020-2-16 深度学习笔记8 - 深度学习中的优化2（基本算法-梯度下降/动量，参数初始化策略）自适应学习率算法（AdaGrad / RMSProp / Adam） python实现参见https://blog.cs...

1 条评论您还未登录，请先登录后发表或查看评论

AdaGrad算法

bl128ve900的博客

08-02

9783

参考： 深度学习优化方法-AdaGradhttps://blog.csdn.net/program_developer/article/details/80756008 AdaGrad算法介绍表示第i个参数的梯度，对于经典的SGD优化方法，参数θ的更新为：再来看AdaGrad算法表示为：其中，r为梯度累积变量，r的初始值为0。ε为全局学习率，需要自己设置。δ为小常数，为了...

【深度学习基础】第十九课：Adam优化算法

热门推荐

史丹利复合田的博客

08-06

1万+

深度学习优化函数详解系列目录 深度学习优化函数详解（0）– 线性回归问题 深度学习优化函数详解（1）– Gradient Descent 梯度下降法 深度学习优化函数详解（2）– SGD 随机梯度下降 深度学习优化函数详解（3）– mini-batch SGD 小批量随机梯度下降 深度学习优化函数详解（4）– momentum 动量法 深度学习优化函数详解（5）– Neste...

优化算法-AdaGrad,RMSProp,AdaDelta.Adam

DevilXiao

03-13

1662

动量法利用指数加权移动平均是的自变量的更新方向一致，降低了发散的可能，但在各个维度上采用的仍然是统一的学习率，而统一的学习率可能造成难以适应所有维度的问题。本文中的这些算法将会对此做出改进。首先看一下动量法的迭代步骤作为以下各种算法的对比：设时间步ttt的自变量为xt\boldsymbol{x}_txt，学习率为ηt\eta_tηt。在时间步000，动量法创建速度变量v0\boldsym...

深度学习之AdaGrad算法

MumuziD的博客

04-02

1968

AdaGrad 算法根据自变量在每个维度的梯度值调整各个维度的学习率，从而避免统一的维度难以适应所有维度的问题。特点：小批量随机梯度按元素累加变量，出现在学习率的分母项中。（若目标函数有关自变量的偏导数一直都较大，那么学习率下降较快；反之亦然。）若迭代早期下降过快 + 当前解仍然不佳，可能导致很难找到有效解。一、算法初解实现AdaGrad算法，使⽤的学习率为0.4。...

AdaGrad：自适应学习率下的梯度优化算法

m0_70911440的博客

12-04

1689

在深度学习中，优化算法对于模型的收敛速度和性能起着至关重要的作用。AdaGrad是一种自适应学习率的梯度优化算法，它能够根据参数梯度的历史信息自适应地调整学习率，从而有效地解决了在训练过程中学习率衰减过快或过慢的问题。本文将深入介绍AdaGrad算法的原理、优势以及在深度学习中的应用。它在这些任务中都表现出了良好的优化效果，并被广泛应用于深度学习框架中，如TensorFlow和PyTorch等。在深度学习中的各个任务和模型中，AdaGrad已被广泛使用，并呈现出优秀的优化效果。

AdaGrad

m0_37347812的博客

06-17

176

参考：pytorch学习笔记（三十六）：AdaGrad

深度学习中的优化算法之AdaGrad

网络资源是无限的

05-14

1万+

之前在https://blog.csdn.net/fengbingchun/article/details/123955067 介绍过SGD(Mini-Batch Gradient Descent(MBGD)，有时提到SGD的时候，其实指的是MBGD)。这里介绍下自适应梯度优化算法。 AdaGrad：全称Adaptive Gradient，自适应梯度，是梯度下降优化算法的扩展。AdaGrad是一种具有自适应学习率的梯度下降优化方法。它使参数的学习率自适应，对不频繁的参数执行较大的更...

Mxnet (29): AdaGrad算法

泛泛之素

10-02

464

1. 稀疏特征和学习率在模型训练中会有稀疏特征（很少发生的特征），在自然语言模型中常见，比如，与 “学习”相比“预处理”更加少见。同时在其他领域也会用到，例如计算广告和个性化的协同过滤。因为只有少数人感兴趣的事情很多。长尾经济很受用。在学习率下降的情况下，我们可能最终会遇到以下情况：常见特征的参数收敛到其最佳值相当快，而对于罕见特征，在确定最佳值之前，我们仍然缺乏足够频繁地观察它们的情况。换句话说，对于频繁使用的功能，学习率降低得太慢，对于不频繁使用的功能，学习率降低得太快。解决此问题的一种可行方法是

深度学习优化算法：AdaGrad算法

ywm_up

08-31

1710

原文链接：动手学深度学习pytorch版：7.5 AdaGrad算法 github：https://github.com/ShusenTang/Dive-into-DL-PyTorch 原论文： [1] Duchi, J., Hazan, E., & Singer, Y. (2011). Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning R

AdaGrad优化器（理论、公式、代码实现）

m0_48923489的博客

03-19

3424

AdaGrad（Adaptive Gradient Algorithm）是一种自适应学习率的梯度下降算法，于2011年由Duchi等人提出。这个算法主要是为了解决标准的梯度下降算法中学习率一成不变的问题。在标准的梯度下降算法中，如果学习率过大，可能会导致算法在最小值附近震荡而不收敛；如果学习率过小，又会导致收敛速度过慢。AdaGrad算法通过自适应调整每个参数的学习率，尝试解决这个问题。

深度学习AdaGrad算法

我亦是行人

01-02

4639

AdaGrad算法在一般的优化算法中，目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代。例如，假设目标函数为fff，自变量为一个二维向量[x1,x2]⊤[x_1, x_2]^\top[x1,x2]⊤，该向量中每一个元素在迭代时都使用相同的学习率。例如，在学习率为η\etaη的梯度下降中，元素x1x_1x1和x2x_2x2都使用相同的学习率η\etaη来自我迭代： x1←x1−η∂f∂x1,x2←x2−η∂f∂x2. x_1 \leftarrow x_1 - \eta \fra

优化算法 -AdGrad算法

yingzi的技术博客

09-16

802

这已经表明，即使在无噪声的情况下，学习率的降低可能相当剧烈，我们需要确保参数能够适当地收敛。同动量法一样，AdaGrad算法需要对每个自变量维护同它一样形状的状态变量。我们可以直接使用深度学习框架中提供的AdaGrad算法来训练模型。