机器学习笔记:Adagrad

1 学习率的大小 

 2 Adagrad

2.0 motivation

  • 对于经常更新的参数,我们已经积累了大量关于它的知识,不希望被单个样本影响太大,希望学习速率慢一些;
  • 对于偶尔更新的参数,我们了解的信息太少,希望能从每个偶然出现的样本身上多学一些,即学习速率大一些
  • 怎么样去度量历史更新频率呢?那就是二阶动量
    • 参数更新越频繁,二阶动量越大,学习率就越小

2.1 Adagrad结论

 2.2 Adagrad推导

 g不变

η随着t的增加而减少

σ是之前梯度的均方根

 3 Adagrad的优缺点

3.1 优点

可以动态调整学习率,因而相比于SGD来说,可以更少地进行手动对学习率的调参

3.2 缺点

  • 如果我们把 视为学习率的话,那么学习率会很快降到一个很小的值,之后会很慢收敛了。
  • η的值需要认为指定,如果设置的太大的话,就会发生震荡;太小的话全局学习率又会较低

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值