RAdam论文解读

最新推荐文章于 2025-03-12 19:10:18 发布

yealxxy

最新推荐文章于 2025-03-12 19:10:18 发布

阅读量1w

点赞数 13

分类专栏： paper-reading 文章标签： RAdam 论文解读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014248127/article/details/99696029

版权

paper-reading 专栏收录该内容

2 篇文章

订阅专栏

中国博士生提出最先进AI训练优化器，收敛快精度高，网友亲测：Adam可以退休了

论文解读：Radam：ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND
上面的了链接是对论文的解读，这里只是我个人的理解。

1,目的

想找到一个比较好的优化器，能够在收敛速度和收敛的效果上都比较号。
目前sgd收敛较好，但是慢。
adam收敛快，但是容易收敛到局部解。
常用解决adam收敛问题的方法是，自适应启动方法。

2，adam方法的问题

adam在训练的初期，学习率的方差较大。
根本原因是因为缺少数据，导致方差大。
学习率的方差大，本质上自适应率的方差大。
可以控制自适应率的方差来改变效果。

3，Radam，控制自适应率的方差

一堆数学公式估计出自适应率的最大值和变化过程。
提出了Radam的优化过程

4，实验结论

前几个周期内整流项使得RAdam比Adam方法慢，但是在后期的收敛速度是比Adam要更快的。
尽管RAdam在测试精度方面未能超越SGD，但它可以带来更好的训练性能。
RAdam算法对初始学习率是具有鲁棒性的，可以适应更宽范围内的变化。在从0.003到0.1一个很宽的范围内，RAdam表现出了一致的性能，训练曲线末端高度重合
如果你以为RAdam只能处理较小数据集上的训练，或者只有在CNN上有较好的表现就大错特错了。即使大道有几十亿个单词的数据集的LSTM模型，RAdam依然有比Adam更好的表现。

5，个人理解

优势：鲁棒性强，这个优势很强，而且适合任何模型的初期的实验，也对新手比较友好；不用调试学习率，这个优势也很强；自适应启动的方式会增加超参数，不适合初期的实验。
缺点：论文也提出，他的收敛效果不一定是所有里面最好的。所以在实验的后期，对于老手，可以采用更加精细的学习率控制策略试试会不会拿到另一个好的结果。

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。