论文信息
题目:Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models
Adan:用于更快优化深度模型的自适应 Nesterov 动量算法
作者:Xingyu Xie、Pan Zhou、Huan Li、Zhouchen Lin、Shuicheng Yan
源码链接:https://github.com/sail-sg/Adan
论文创新点
- 提出 Adan 优化器,用新的 Nesterov 动量估计方法加速训练。
- 理论证明 Adan 在非凸随机问题上收敛速度快,复杂度匹配最优下界。
- Adan 在多领域任务中超越当前最优优化器,训练成本更低 。
摘要
在深度学习中,不同类型的深度网络通常需要不同的优化器,而这些优化器往