AdamW优化器的详细公式及参数解释

从零开始学习人工智能

已于 2025-01-04 10:15:01 修改

阅读量2k

点赞数 11

文章标签：机器学习算法人工智能

于 2025-01-04 10:13:21 首次发布

本文链接：https://blog.csdn.net/weixin_41544125/article/details/144924209

版权

AdamW优化器是Adam优化器的一个变体，它在Adam的基础上引入了权重衰减（Weight Decay），并且将权重衰减与参数更新步骤解耦。以下是AdamW优化器的详细公式及参数解释：

AdamW优化器的更新步骤包括以下几个关键部分：

计算梯度：

其中，( g_t ) 是在时间步 ( t ) 的梯度，( L ) 是损失函数，( \theta_t ) 是当前参数.
$g_t = \nabla_\theta L(\theta_t)$

其中，( g_t ) 是在时间步 ( t ) 的梯度，( L ) 是损失函数，( \theta_t ) 是当前参数.
一阶矩估计（动量）：

其中，( m_t ) 是一阶矩估计，( \beta_1 ) 是一阶矩的衰减率，通常设置为0.9。
$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$

其中，( m_t ) 是一阶矩估计，( \beta_1 ) 是一阶矩的衰减率，通常设置为0.9。
二阶矩估计：

其中，( v_t ) 是二阶矩估计，( \beta_2 ) 是二阶矩的衰减率，通常设置为0.999。
$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$

其中，( v_t ) 是二阶矩估计，( \beta_2 ) 是二阶矩的衰减率，通常设置为0.999。
偏差校正：

偏差校正是为了消除初始值对矩估计的影响。
$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}$

偏差校正是为了消除初始值对矩估计的影响。
参数更新：

其中，( \alpha ) 是学习率，( \epsilon ) 是一个小常数，用于防止除零，( \lambda ) 是权重衰减系数。
$\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t - \lambda \theta_t$

其中，(
$\alpha$
) 是学习率，(
$\epsilon$
) 是一个小常数，用于防止除零，(
$\lambda$
) 是权重衰减系数。