Lookahead、LazyOptimizer、MaskedAdamOptimizer、AdaBound

最新推荐文章于 2023-09-23 16:44:49 发布

qq_25104905

最新推荐文章于 2023-09-23 16:44:49 发布

阅读量231

点赞数

本文链接：https://blog.csdn.net/qq_25104905/article/details/100168589

版权

本文介绍了优化器的新进展，包括AdaBound算法，它试图结合Adam的快速收敛与SGD的稳定性能。AdaBound通过对学习率动态裁剪，实现了训练早期接近Adam，后期接近SGD的效果。此外，还探讨了Lookahead优化方法，它不是直接的优化器，而是一种结合现有优化器的策略，通过周期性的全局更新提高模型性能。另外，还讨论了LazyAdam和MaskedAdamOptimizer，这两个针对NLU任务优化的Adam变体，旨在解决稀疏更新和过拟合问题。

摘要由CSDN通过智能技术生成

Lookahead、LazyOptimizer、MaskedAdamOptimizer、AdaBound

2019年08月02日 17:15:19 sliderSun 阅读数 103

本文链接：https://blog.csdn.net/weixin_37947156/article/details/98208772

AdaBound算法：像Adam一样快，又像SGD一样好的优化器

论文地址：

https://openreview.net/pdf?id=Bkg3g2R9FX

GitHub地址：（Pytorch）

https://github.com/Luolc/AdaBound

GitHub地址：（Tensorflow）

https://github.com/taki0112/AdaBound-Tensorflow

SGD的缺点：

SGD现在后期调优时还是经常使用到，但SGD的问题是前期收敛速度慢。SGD前期收敛慢的原因： SGD在更新参数时对各个维度上梯度的放缩是一致的，并且在训练数据分布极不均很时训练效果很差。而因为收敛慢的问题应运而生的自适应优化算法Adam、AdaGrad、RMSprop 等，但这些自适应的优化算法虽然可以在训练早期展现出快速的收敛速度，但其在测试集上的表现却会很快陷入停滞，并最终被 SGD 超过。