探索高效深度学习优化器：RAdam - 融合了RMSProp与Adam的优点

最新推荐文章于 2024-08-15 09:11:52 发布

戴艺音

最新推荐文章于 2024-08-15 09:11:52 发布

阅读量471

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00074/article/details/136959568

版权

探索高效深度学习优化器：RAdam - 融合了RMSProp与Adam的优点

RAdamOn the Variance of the Adaptive Learning Rate and Beyond项目地址:https://gitcode.com/gh_mirrors/ra/RAdam

在深度学习领域，优化器的选择往往对模型训练的速度和效果起到决定性作用。（Rectified Adam）是一个由李源卢卡斯柳(Liyuan Lucas Liu)等人提出的优化算法，它结合了RMSProp的平滑性和Adam的适应性，旨在解决在大规模数据集和复杂网络结构中遇到的训练问题。

项目简介

RAdam是针对Adam优化器的一种改进版本，主要解决了Adam在初期迭代时可能表现不佳的问题。通过引入一个修正项，RAdam能够在训练开始阶段更好地调整学习率，使模型能够更快地收敛到有效区域。

技术分析

在传统的Adam优化器中，动量和二阶矩估计（即v和s)会在初始化时被设置为0，这可能导致在学习率较大的情况下，模型在早期迭代中过于激进。而RAdam引入了一个新的概念——warm-up（预热），它不是简单地线性增加学习率，而是通过对RMSProp的动量和二阶矩估计进行校正来实现的。

具体来说，RAdam引入了一个参数β1 t，其中β1是Adam中的动量参数，t是当前迭代步数。当乘以β1 t后，可以避免在初期由于动量项过小导致的更新不足。同时，RAdam也考虑到了二阶矩估计的影响，引入了一个类似的修正项。这种设计使得RAdam在训练初期更加稳定，后续则保持了Adam的高效率。