【深度学习pytorch-46】Adam

最新推荐文章于 2025-03-12 20:29:03 发布

华东算法王

最新推荐文章于 2025-03-12 20:29:03 发布

阅读量582

点赞数 18

分类专栏： DL-pytorch 文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/m0_69378371/article/details/145672946

版权

DL-pytorch 专栏收录该内容

105 篇文章

订阅专栏

Adam（Adaptive Moment Estimation）是一种非常流行且高效的优化算法，广泛应用于深度学习中的各种任务。Adam结合了Momentum和RMSProp的优点，能够自动调整每个参数的学习率，并通过计算梯度的动量和平方梯度的指数加权平均来加速收敛过程。它在很多实际应用中表现得非常好，尤其是在处理大规模数据集和复杂模型时。

1. Adam优化算法简介

Adam优化算法于2015年由 D.P. Kingma 和 J.Ba 提出。它结合了 Momentum（动量法）和 RMSProp（根均方传播）的方法，并在其基础上进一步改进。Adam的优点在于能够根据每个参数的不同特性自适应调整学习率，从而有效地处理非平稳目标（例如神经网络中的目标函数）和稀疏数据。

2. Adam优化算法的核心思想

Adam算法的核心思想是通过计算每个参数的“动量”和“加权平方梯度”的指数加权平均来动态调整学习率。

动量：类似于物理中的动量概念，帮助参数更新时保留历史的梯度信息，从而加速收敛。
加权平方梯度：计算梯度的平方的指数加权平均，用来规范化梯度的变化幅度，防止梯度爆炸或消失的问题。

具体来说，Adam的主要步骤如下：

一阶矩估计（动量估计）：计算梯度的指数加权平均（类似Momentum），它可以看作是梯度的“动量”。
二阶矩估计（平方梯度估计）：计算梯度平方的指数加权平均，这个估计值用来反映梯度的变化幅度，从而动态调整每个参数的学习率。
偏置校正：由于初始化时一阶和二阶矩估计是0，Adam对这些估计值进行了偏置校正。

3. Adam的更新公式

假设我们有参数 (\theta)，目标是最小化损失函数 (J(\theta))。每次迭代时，Adam通过以下步骤来更新参数：

(1) 计算梯度：

对于每个参数 (\theta)，计算其梯度：
$g_t = \nabla_{\theta} J(\theta_t)$

(2) 一阶矩估计（动量）：

计算梯度的指数加权平均（动量）：
$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$

(m_t) 是一阶矩估计，表示梯度的加权平均。
(\beta_1) 是一阶矩估计的衰减率，通常取值为0.9。

(3) 二阶矩估计（平方梯度）：

计算梯度平方的指数加权平均：
$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$

(v_t) 是二阶矩估计，表示梯度平方的加权平均。
(\beta_2) 是二阶矩估计的衰减率，通常取值为0.999。

(4) 偏置校正：

由于在初期阶段，(m_t) 和 (v_t) 都会有偏置（接近0），所以我们对它们进行偏置校正：
$\hat{m_t} = \frac{m_t}{1 - \beta_1^t}$
$\hat{v_t} = \frac{v_t}{1 - \beta_2^t}$

(5) 参数更新：

最后，使用一阶和二阶矩的校正值来更新参数：
$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v_t}} + \epsilon} \hat{m_t}$

(\eta) 是学习率（通常设为0.001）。
(\epsilon) 是一个很小的常数（通常为 (10^{-8})），用来避免除零错误。

4. Adam的工作原理

Adam的工作原理可以总结为：

动量（Momentum）：通过对梯度的加权平均（动量）来加速收敛。
自适应学习率：通过计算梯度平方的加权平均，动态调整每个参数的学习率。这意味着，对于梯度较大的参数，学习率会自动减小；对于梯度较小的参数，学习率会自动增大。
偏置校正：由于一开始 (m_t) 和 (v_t) 都接近0，Adam通过偏置校正避免了这个问题，从而使得算法更稳定。

5. Adam的优缺点

优点：

自适应学习率：Adam通过动态调整每个参数的学习率，能够有效适应不同参数的变化情况，避免了手动调节学习率的麻烦。
适合稀疏数据：由于每个参数都有单独的学习率，Adam特别适用于稀疏数据，例如自然语言处理中的词向量训练。
高效性：Adam结合了Momentum和RMSProp的优点，能够加速收敛，特别是在大规模数据集和复杂模型中。
偏置校正：Adam在早期训练过程中通过偏置校正保证了动量和二阶矩估计的准确性，从而避免了训练不稳定的情况。

缺点：

超参数选择：尽管Adam的默认超参数（如(\beta_1=0.9), (\beta_2=0.999), (\epsilon=10^{-8})）在很多情况下都表现良好，但在某些特定任务中，仍然可能需要调整这些超参数。
可能收敛到局部最优：虽然Adam常常能够加速收敛，但在某些复杂的非凸优化问题中，Adam仍可能会收敛到局部最优解。
内存消耗：由于要存储动量和二阶矩估计，Adam的内存开销要比传统的SGD大。