AdaGrad算法

最新推荐文章于 2023-12-04 17:32:14 发布

bl128ve900

最新推荐文章于 2023-12-04 17:32:14 发布

阅读量9.6k

点赞数 2

分类专栏： ML/DL/CV 基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bl128ve900/article/details/98211689

版权

AdaGrad是一种优化算法，其特点是随着迭代次数增加，学习率逐渐减小。它在处理稀疏数据时表现出优势，但可能因梯度累积导致学习率过早收缩，影响后期收敛。该算法初期鼓励快速收敛，后期转为惩罚收敛策略。

摘要由CSDN通过智能技术生成

参考：

深度学习优化方法-AdaGrad https://blog.csdn.net/program_developer/article/details/80756008

AdaGrad算法介绍

表示第i个参数的梯度，对于经典的SGD优化方法，参数θ的更新为：

再来看AdaGrad算法表示为：

其中，r为梯度累积变量，r的初始值为0。ε为全局学习率，需要自己设置。δ为小常数，为了数值稳定大约设置为。

AdaGrad算法分析

（1）从AdaGrad算法中可以看出，随着算法不断迭代，r会越来越大，整体的学习率会越来越小。所以，一般来说AdaGrad算法一开始是激励收敛，到了后面就慢慢变成惩罚收敛，速度越来越慢。

（2）在SGD中，随着梯度的增大，我们的学习步长应该是增大的。但是在AdaGrad中，随着梯度g的增大，我们的r也在逐渐的增大，且在梯度更新时r在分母上

最低0.47元/天解锁文章

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
AdaGrad算法

参考：深度学习优化方法-AdaGradhttps://blog.csdn.net/program_developer/article/details/80756008AdaGrad算法介绍表示第i个参数的梯度，对于经典的SGD优化方法，参数θ的更新为：再来看AdaGrad算法表示为：其中，r为梯度累积变量，r的初始值为0。ε为全局学习率，需要自己设置。δ为小常数，为了...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。