【Deep Learning 】深度模型中的优化问题（五）AdaGrad（自适应算法1）

最新推荐文章于 2024-04-22 15:12:15 发布

Lindsay.Lu丶

最新推荐文章于 2024-04-22 15:12:15 发布

阅读量928

点赞数

分类专栏：算法 Python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ljyljyok/article/details/88287938

版权

算法同时被 3 个专栏收录

114 篇文章 6 订阅

订阅专栏

95 篇文章 1 订阅

订阅专栏

59 篇文章 3 订阅

订阅专栏

本文是Deep Learning 之最优化方法系列文章的AdaGrad方法（自适应算法1）。主要参考Deep Learning 一书。

以下节选自个人深度学习笔记。

内容整合来源于网络与个人理解。

Adagrad

口应该为不同的参数设置不同的学习步长。

口梯度越小，则学习步长越大，反之亦然。

口想象一下：在缓坡上，可以大步地往下跑；而且陡坡上，只能小步地往下挪

③ 上面提到的方法对于所有参数都使用了同一个更新速率。但是同一个更新速率不一定适合所有参数。比如有的参数可能已经到了仅需要微调的阶段，但又有些参数由于对应样本少等原因，还需要较大幅度的调动。

Adagrad就是针对这一问题提出的，自适应地为各个参数分配不同学习率的算法。

其中同样是当前的梯度，连加和开根号都是元素级别的运算。θ是初始学习率，由于之后会自动调整学习率，所以初始值就不像之前的算法那样重要了。而是一个比较小的数，用来保证分母非0。

其含义是，对于每个参数，随着其更新的总距离增多，其学习速率也随之变慢。

④ Adagrad算法存在三个弊端：

1. 其学习率是单调递减的，训练后期学习率非常小。

2. 其需要手工设置一个全局的初始学习率。

3. 更新时，左右两边的单位不同一。

⑤ 具体见算法：

参考：

Deep Learning 最优化方法之AdaGrad

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。