机器学习笔记：Adagrad

UQI-LIUWJ

已于 2024-06-21 01:41:00 修改

阅读量304

点赞数

分类专栏：机器学习文章标签：机器学习 python

于 2021-09-19 13:21:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/120379614

版权

机器学习专栏收录该内容

149 篇文章 28 订阅

订阅专栏

1 学习率的大小

2 Adagrad

2.0 motivation

对于经常更新的参数，我们已经积累了大量关于它的知识，不希望被单个样本影响太大，希望学习速率慢一些；
对于偶尔更新的参数，我们了解的信息太少，希望能从每个偶然出现的样本身上多学一些，即学习速率大一些
怎么样去度量历史更新频率呢？那就是二阶动量
- 参数更新越频繁，二阶动量越大，学习率就越小

2.1 Adagrad结论

2.2 Adagrad推导

g不变

η随着t的增加而减少

σ是之前梯度的均方根

3 Adagrad的优缺点

3.1 优点

可以动态调整学习率，因而相比于SGD来说，可以更少地进行手动对学习率的调参

3.2 缺点

如果我们把视为学习率的话，那么学习率会很快降到一个很小的值，之后会很慢收敛了。
η的值需要认为指定，如果设置的太大的话，就会发生震荡；太小的话全局学习率又会较低

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习笔记：Adagrad

1 学习率的大小2 Adagrad2.1 Adagrad结论2.2 Adagrad推导g不变η随着t的增加而减少σ是之前梯度的均方根3 Adagrad的缺点如果我们把视为学习率的话，那么学习率会很快降到一个很小的值，之后会很慢收敛了。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。