adam优化算法_AdaBelief：一个有“信仰”的优化器

最新推荐文章于 2024-04-09 09:58:36 发布

weixin_39597318

最新推荐文章于 2024-04-09 09:58:36 发布

阅读量368

点赞数

文章标签： adam优化算法

本文链接：https://blog.csdn.net/weixin_39597318/article/details/113041589

版权

AdaBelief 也算最近看的很有意思的论文，作者分析做的很好，实验效果也挺好，大家关注度也比较高，而且后面还有意外惊喜。

尽量从没太多人写的角度来写，而非复述论文。介绍这篇的文章很多，甚至作者在 B 站还有中文介绍视频。

介绍 AdaBelief 前，先需要简单介绍下 SGD（随机梯度下降）和 Adam，因为论文中一直说的都是 AdaBelief 的最大优点就是集以上两者的优点为一身。

既有 SGD 算法好的泛化性 (Generalization)
又有 Adam 算法一样好的快速收敛性 (Convergence ability)和稳定性(Stability)
此外 AdaBelief 优化模型性能更好

在论文中，以及 Github 页面作者分享了很多实验结果来证明这几点，看上去 AdaBelief 好像是一个完美的优化器，而且理论方面也如作者说的，正是因为 Belief 的存在，所以 AdaBelief 才能表现如此好。但仔细观察实验结果，还有一些细节部分，就会发现事情或许并非如此。

SGD 和 ADAM

SGD 算是机器学习第一课里的知识了，相信大部分同学也都很清楚其方法：根据损失函数给模型每个参数计算梯度，之后在梯度方向更新一小步。当然这只是 GD，还有 S（Stochastic），为提高效率，随机选择训练样本（一般为 batch），直到训练模型到一个满意的结果。

方程也很简单。

是参数，是学习率，而当然就是梯度。
虽然 SGD 算法很简单，而且都差不多70年前提出的算法。但因为其良好的泛化性，在某些任务上（特别是 CV 大规模数据集，比如 ImageNet）仍然还得到应用。
在某些领域，SGD （如 LARS 和 LAMB）的一些变种最近也得到很多应用，之前自监督学习那篇 BYO L 就是 LARS 训的。
但从方程里也能看出，SGD 是对全局参数用一个学习率，而其实真正优化更想要让那些梯度方向稳定的参数更新更快，而不稳定的更新步伐更小。因此这也导致 SGD 算法训练不太稳定，收敛慢（尤其训练早期）。
对于上面这点问题，就有人提出了适应性法（Adaptive Method），能针对各个参数计算出其定制化的学习率，进行更新训练。此类优化算法很多（名字带 Ada 的都是），而 Adam 就是其中的佼佼者。
Adam 因其万金油性，导致现在整个领域大部分任务都直接无脑就用&#

最低0.47元/天解锁文章

weixin_39597318

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
adam优化算法_AdaBelief：一个有“信仰”的优化器

AdaBelief 也算最近看的很有意思的论文，作者分析做的很好，实验效果也挺好，大家关注度也比较高，而且后面还有意外惊喜。尽量从没太多人写的角度来写，而非复述论文。介绍这篇的文章很多，甚至作者在 B 站还有中文介绍视频。介绍 AdaBelief 前，先需要简单介绍下 SGD（随机梯度下降）和 Adam，因为论文中一直说的都是 AdaBelief 的最大优点就是集以上两者的优点为一身。既有 SGD...
复制链接

扫一扫