深度学习优化函数详解（6）-- adagrad

最新推荐文章于 2025-05-01 15:04:09 发布

史丹利复合田

最新推荐文章于 2025-05-01 15:04:09 发布

阅读量1.8w

点赞数 12

分类专栏：深度学习深度学习优化函数详解文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tsyccnh/article/details/76769232

版权

本文深入探讨Adagrad优化算法，它根据每个参数的历史梯度动态调整学习率，以适应不同参数的重要性。通过公式推导解释其工作原理，并通过实验展示Adagrad在实践中学习率逐渐减小导致收敛速度变慢的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习优化函数详解系列目录

本系列课程代码，欢迎star：
https://github.com/tsycnh/mlbasic

深度学习优化函数详解（0）-- 线性回归问题
 深度学习优化函数详解（1）-- Gradient Descent 梯度下降法
 深度学习优化函数详解（2）-- SGD 随机梯度下降
 深度学习优化函数详解（3）-- mini-batch SGD 小批量随机梯度下降
 深度学习优化函数详解（4）-- momentum 动量法
 深度学习优化函数详解（5）-- Nesterov accelerated gradient (NAG)
深度学习优化函数详解（6）-- adagrad

前面的一系列文章的优化算法有一个共同的特点，就是对于每一个参数都用相同的学习率进行更新。但是在实际应用中各个参数的重要性肯定是不一样的，所以我们对于不同的参数要动态的采取不同的学习率，让目标函数更快的收敛。
adagrad方法是将每一个参数的每一次迭代的梯度取平方累加再开方，用基础学习率除以这个数，来做学习率的动态更新。这个比较简单，直接上公式。

公式推导

$\nabla_{\theta_i} J(\theta)$ 表示第 $i$ 个参数的梯度，对于经典的SGD优化函数我们可以这样表示
$\theta_{i\_new}=\theta_i - \eta\nabla_{\theta_i} J(\theta)$

最低0.47元/天解锁文章

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。