2019-05-29（自适应学习率）

最新推荐文章于 2024-07-26 02:12:25 发布

Fighting_young

最新推荐文章于 2024-07-26 02:12:25 发布

阅读量343

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012224349/article/details/90682745

版权

前言

通常我们所说的学习率变换册率是针对参数更新时梯度前面的系数而言的，而非全局学习率（也可以根据相关算法来调节），我们所要调节的学习率由全局学习率而来，是参数更新的重要系数。

AdaGrad
输入参数：全局学习率、初始化参数、小常量(避免分母为0，例如)
算法过程：
来源

image

总结：
- 优点
  - 随着迭代次数的增大r越来越大，r位于分母上，所以一般来说AdaGrad算法开始时是激励收敛，后期就是惩罚收敛，速度会越来越慢。
  - AdaGrad符合训练初期参数离最优比较远（适合大的学习率），训练后期参数离最优较近（适合小的学习率）的客观规律
  - 针对不同的参数AdaGrad给出不一样的学习速率
- 缺点
  对于深度学习模型而言，从一开始就累积梯度平方会导致有效学习率过早和过量减小。AdaGrade在凸优化问题中表现不错，但不是全部的优化问题。
RMSProp
需要参数：全局学习率、衰减因子、初始化参数、小常量
来源

总结：
RMSProp是AdaGrad的一次改进（主要是红框内）相比AdaGrad它在非凸情况下效果更好
Adam

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2019-05-29（自适应学习率）

前言通常我们所说的学习率变换册率是针对参数更新时梯度前面的系数而言的，而非全局学习率（也可以根据相关算法来调节），我们所要调节的学习率由全局学习率而来，是参数更新的重要系数。AdaGrad输入参数：全局学习率、初始化参数、小常量(避免分母为0，例如)算法过程：来源image总结：优点随着迭代次数的增大r越来越大，r位于...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。