Adam,AdamW,LAMB优化器原理与代码

最新推荐文章于 2024-07-04 08:52:06 发布

睡熊猛醒

最新推荐文章于 2024-07-04 08:52:06 发布

阅读量1.2w

点赞数 17

分类专栏：机器学习 Tensorflow 文章标签：优化器 adam

本文链接：https://blog.csdn.net/weixin_41089007/article/details/107007221

版权

本文介绍了深度学习中常用的优化器Adam、AdamW和LAMB的原理，包括它们的计算公式及代码实现。Adam结合了AdaGrad和RMSprop的优点，而AdamW解决了Adam优化器在L2正则化上的问题，LAMB则旨在解决大batch size训练时的收敛问题，允许更大的批量大小而不牺牲准确性。

摘要由CSDN通过智能技术生成

参考文献：
1.https://www.fast.ai/2018/07/02/adam-weight-decay/
2.https://arxiv.org/pdf/1904.00962.pdf
3.https://blog.csdn.net/weixin_43269174/article/details/106255084

前言

说到优化器，我们脑海中首先浮现的可能就是 Stochastic Gradient Descent （SGD）、Adaptive Gradient (AdaGrad)、Root Mean Square prop (RMSprop)、Adaptive Moment estimation (Adam) 等常用的老牌优化器。但是神经网络发展到了现在，大部分 NLP 预训练模型已不再使用这些方法，而是使用 Adam Weight Decay Regularization (AdamW) 和19年首度亮相的 Layer-wise Adaptive Moments optimizer for Batching training (LAMB)。这些新兴优化器的优点是什么呢？为什么如此受欢迎？这些网上已经有很多分析和解释了，这里不再说明，本文的重点就是Adam,AdamW,LAMB的计算公式和代码实现。

1 Adam

为解决 GD 中固定学习率带来的不同参数间收敛速度不一致的弊端，AdaGrad 和 RMSprop 诞生出来，为每个参数赋予独立的学习率。计算梯度后，梯度较大的参数获得的学习率较低，反之亦然。此外，为避免每次梯度更新时都独立计算梯度，导致梯度方向持续变化，Momentum 将上一轮梯度值加入到当前梯度的计算中，通过某种权重对两者加权求和，获得当前批次参数更新的更新值。 Adam 结合了这两项考虑，既为每一个浮点参数自适应性地设置学习率，又将过去的梯度历史纳入考量，其实现原理如下：
$m_t=\beta_1*m_{t-1}+(1-\beta_1)*g_t\\ v_t=\beta_2*v_{t-1}+(1-\beta_2)*g_t^2\\ \hat{m_t}=m_t/(1-\beta_1^t)\\ \hat{v_t}=v_t/(1-\beta_2^t)\\ \theta_t=\theta_{t-1}-\alpha*\frac{\hat{m_t}}{\sqrt{\hat{v_t}}+\epsilon}$