adam优化算法_AdaBelief:一个有“信仰”的优化器

AdaBelief 也算最近看的很有意思的论文,作者分析做的很好,实验效果也挺好,大家关注度也比较高,而且后面还有意外惊喜。

2e85bfbe5c9c2bf3f1ee494f48ca640b.png

尽量从没太多人写的角度来写,而非复述论文。介绍这篇的文章很多,甚至作者在 B 站还有中文介绍视频。

介绍 AdaBelief 前,先需要简单介绍下 SGD(随机梯度下降)和 Adam,因为论文中一直说的都是 AdaBelief 的最大优点就是集以上两者的优点为一身

  • 既有 SGD 算法好的泛化性 (Generalization)
  • 又有 Adam 算法一样好的快速收敛性 (Convergence ability)和稳定性(Stability)
  • 此外 AdaBelief 优化模型性能更好

在论文中,以及 Github 页面作者分享了很多实验结果来证明这几点,看上去 AdaBelief 好像是一个完美的优化器,而且理论方面也如作者说的,正是因为 Belief 的存在,所以 AdaBelief 才能表现如此好。但仔细观察实验结果,还有一些细节部分,就会发现事情或许并非如此。

SGD 和 ADAM

SGD 算是机器学习第一课里的知识了,相信大部分同学也都很清楚其方法:根据损失函数给模型每个参数计算梯度,之后在梯度方向更新一小步。当然这只是 GD,还有 S(Stochastic),为提高效率,随机选择训练样本(一般为 batch),直到训练模型到一个满意的结果。

方程也很简单。


是参数, 是学习率,而 当然就是梯度。
虽然 SGD 算法很简单,而且都差不多70年前提出的算法。但因为其良好的泛化性,在某些任务上(特别是 CV 大规模数据集,比如 ImageNet)仍然还得到应用。
在某些领域,SGD (如 LARS 和 LAMB)的一些变种最近也得到很多应用,之前自监督学习那篇 BYO L 就是 LARS 训的。
但从方程里也能看出,SGD 是对全局参数用一个学习率,而其实真正优化更想要让那些梯度方向稳定的参数更新更快,而不稳定的更新步伐更小。因此这也导致 SGD 算法训练不太稳定,收敛慢(尤其训练早期)。
对于上面这点问题,就有人提出了适应性法(Adaptive Method),能针对各个参数计算出其定制化的学习率,进行更新训练。此类优化算法很多(名字带 Ada 的都是),而 Adam 就是其中的佼佼者。
Adam 因其万金油性,导致现在整个领域大部分任务都直接无脑就用&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值