RAdam论文解读

中国博士生提出最先进AI训练优化器,收敛快精度高,网友亲测:Adam可以退休了

论文解读:Radam:ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND
上面的了链接是对论文的解读,这里只是我个人的理解。

1,目的

  • 想找到一个比较好的优化器,能够在收敛速度和收敛的效果上都比较号。
  • 目前sgd收敛较好,但是慢。
  • adam收敛快,但是容易收敛到局部解。
  • 常用解决adam收敛问题的方法是,自适应启动方法。

2,adam方法的问题

  • adam在训练的初期,学习率的方差较大。
  • 根本原因是因为缺少数据,导致方差大。
  • 学习率的方差大,本质上自适应率的方差大。
  • 可以控制自适应率的方差来改变效果。

3,Radam,控制自适应率的方差

  • 一堆数学公式估计出自适应率的最大值和变化过程。
  • 提出了Radam的优化过程

4,实验结论

  • 前几个周期内整流项使得RAdam比Adam方法慢,但是在后期的收敛速度是比Adam要更快的。
  • 尽管RAdam在测试精度方面未能超越SGD,但它可以带来更好的训练性能。
  • RAdam算法对初始学习率是具有鲁棒性的,可以适应更宽范围内的变化。在从0.003到0.1一个很宽的范围内,RAdam表现出了一致的性能,训练曲线末端高度重合
  • 如果你以为RAdam只能处理较小数据集上的训练,或者只有在CNN上有较好的表现就大错特错了。即使大道有几十亿个单词的数据集的LSTM模型,RAdam依然有比Adam更好的表现。

5,个人理解

  • 优势:鲁棒性强,这个优势很强,而且适合任何模型的初期的实验,也对新手比较友好;不用调试学习率,这个优势也很强;自适应启动的方式会增加超参数,不适合初期的实验。
  • 缺点:论文也提出,他的收敛效果不一定是所有里面最好的。所以在实验的后期,对于老手,可以采用更加精细的学习率控制策略试试会不会拿到另一个好的结果。
  • 12
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值