Adam优化器（理论、公式、代码）

最新推荐文章于 2025-02-28 00:15:00 发布

m0_48923489

最新推荐文章于 2025-02-28 00:15:00 发布

阅读量4.8w

点赞数 73

文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/m0_48923489/article/details/136863726

版权

Adam

Adam（Adaptive Moment Estimation）是一种广泛使用的深度学习优化算法，由 Diederik P. Kingma 和 Jimmy Ba 在 2014 年提出。它结合了动量法（Momentum）和 RMSProp 的思想，旨在通过计算梯度的一阶矩估计和二阶矩估计来调整每个参数的学习率，从而实现更高效的网络训练。

提出的契机

在 Adam 提出之前，研究者们已经在使用像 Momentum 和 RMSProp 这样的优化算法来加速深度神经网络的训练过程。然而，这些算法各有优势和局限。Momentum 善于处理梯度的方向和大小，而 RMSProp 善于调整学习率以应对数据的稀疏性。Adam 的提出是为了结合这两种算法的优点，同时减少它们的缺点，提供一种更加鲁棒的优化解决方案。

理论与公式

Adam 算法的关键在于同时计算梯度的一阶矩（均值）和二阶矩（未中心的方差）的指数移动平均，并对它们进行偏差校正，以确保在训练初期时梯度估计不会偏向于 0。

算法的更新规则如下：

While 条件：
- $\nabla_{\theta_{k-1}} L(\theta)$
- $m_{k} = \beta_1 m_{k-1} + (1 - \beta_1) g$
- $v_{k} = \beta_2 v_{k-1} + (1 - \beta_2) g \odot g$
- $\hat{m}_{k} = \frac{m_{k}}{1 - \beta_1^k}$
- $\hat{v}_{k} = \frac{v_{k}}{1 - \beta_2^k}$
- $\theta_{k} = \theta_{k-1} - \frac{\eta}{\sqrt{\hat{v}_{k}} + \epsilon} \hat{m}_{k}$

其中， $m_{k}$ 和 $v_{k}$ 分别是梯度的一阶矩和二阶矩的估计， $\beta_1$ 和 $\beta_2$ 是控制这两个矩估计的指数衰减率，通常设置为 0.9 和 0.999。 $\epsilon$ 是一个非常小的数（例如1e-8），防止除以零。 k是当前迭代次数，用于做偏差校正。

$\beta_1^k = \beta_1 \times \beta_1 \times \ldots \times \beta_1$ （共乘以 $k$ 次）
$\beta_2^k = \beta_2 \times \beta_2 \times \ldots \times \beta_2$ （共乘以 $k$ 次）

在 Adam 优化算法中， $\beta_1^k$ 和 $\beta_2^k$ 用于进行偏差校正（bias correction）。这是因为在算法的初期，由于 $m_k$ 和 $v_k$ （分别是梯度的一阶矩和二阶矩的估计）是从 0 开始初始化的，会导致它们在初始阶段被低估。特别是当 $\beta_1$ 和 $\beta_2$ 接近 1 时，这个偏差会更加显著。为了补偿这种估计的偏差，Adam 算法引入了偏差校正步骤。

偏差校正的作用

对 $m_k$ 的偏差校正：初始时刻，一阶矩 $m_k$ 的值偏小，因为它是梯度值的加权平均，起始所有梯度都被初始化为 0。通过除以 $\beta_1^k$ ，可以将 $m_k$ 的值放大，使其更快地接近实际的梯度均值。随着迭代次数 $k$ 的增加， $\beta_1^k$ 会趋向于 0，偏差校正因子 $\beta_1^k$ 就会趋向于 1，偏差校正的影响会逐渐减小。
对 $v_k$ 的偏差校正：类似地，二阶矩 $v_k$ （梯度平方的加权平均）也会在初始阶段被低估。通过除以 $\beta_2^k$ ，可以增加 $v_k$ 的值，使其更接近实际的梯度平方的均值。随着 $k$ 的增加，偏差校正因子 $\beta_2^k$ 也会趋向于 1。

偏差校正的重要性

偏差校正对于 Adam 算法的性能至关重要，特别是在训练的初期阶段。没有偏差校正，算法可能会因为初始的低估而导致学习步长太小，进而影响训练的速度和效果。通过偏差校正，Adam 算法可以更快地调整其参数更新的大小，加速初期的学习过程，并提高整体的优化效率。随着训练的进行，这种校正变得不那么重要，因为 $m_k$ 和 $v_k$ 会逐渐积累足够的信息来准确估计梯度的一阶和二阶矩。

代码示例

以下是 Adam 优化算法的 Python 代码示例：

def adam_update(parameters, gradients, m, v, t, lr=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8):
    for param, grad in zip(parameters, gradients):
        m[param] = beta1 * m[param] + (1 - beta1) * grad
        v[param] = beta2 * v[param] + (1 - beta2) * (grad ** 2)
        m_corrected = m[param] / (1 - beta1 ** t)
        v_corrected = v[param] / (1 - beta2 ** t)
        param_update = lr * m_corrected / (np.sqrt(v_corrected) + epsilon)
        param -= param_update