Adam优化器

最新推荐文章于 2025-03-08 17:29:55 发布

AIM086

最新推荐文章于 2025-03-08 17:29:55 发布

阅读量2.4k

点赞数 20

分类专栏：深度学习优化文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_43538018/article/details/144936782

版权

深度学习同时被 2 个专栏收录

6 篇文章

订阅专栏

优化

2 篇文章

订阅专栏

Adam（Adaptive Moment Estimation）优化器是一种基于梯度下降法的优化算法，它结合了动量法（见文章指数移动平均）和自适应学习率的方法，通过计算梯度的一阶矩（平均值）和二阶矩（方差）来调整每个参数的学习率，从而加速训练并提高收敛性。

传统梯度下降法的缺点

在深度学习中，优化算法的目标是通过反向传播来更新神经网络的参数，使得损失函数尽量减小。最基本的优化方法是梯度下降。梯度下降法的核心思想是：

计算损失函数相对于模型参数的梯度（即参数的导数）。
按照梯度的方向更新参数： $\theta_{t+1} = \theta_t - \alpha \cdot \nabla_{\theta} L(\theta_t)$ ，其中， $\theta_t$ 是第 $t$ 次迭代时的参数， $\nabla_{\theta} L(\theta_t)$ 是参数的梯度， $\alpha$ 是学习率，控制每次更新的步长。

标准的梯度下降有一个缺点，就是学习率是固定的，在处理不同参数时，可能有些参数更新过快，而有些参数更新过慢。

Adam优化器通过计算 一阶矩 和 二阶矩 来解决梯度下降法的这个问题，使得每个参数有自己独立的、自适应的学习率。

Adam原理

Adam优化器结合了以下两种技术：

动量法：通过累积过去梯度的加权平均，减小参数更新过程中的震荡，加速收敛。（见文章指数移动平均）
自适应学习率（RMSProp）：通过考虑梯度的平方的指数加权平均，调整每个参数的学习率，避免学习率过大或过小。

Adam优化器的详细步骤：

初始化
Adam优化器首先初始化两个动量变量： $m_t = 0$ （一阶矩，梯度的平均值）， $v_t = 0$ （二阶矩，梯度的平方的平均值）。
并设置一些超参数：
- 学习率： $\alpha$ ，通常设置为0.001。
- 一阶矩衰减因子： $\beta_1$ ，通常取值为0.9。
- 二阶矩衰减因子： $\beta_2$ ，通常取值为0.999。
- 平滑项： $\epsilon$ ，一个小常数（如 $10^{-8}$ ），防止在更新过程中出现除零错误。
计算梯度
在每次迭代时，首先需要计算损失函数对当前参数的梯度： $g_t = \nabla_{\theta} L(\theta_t),$ 其中 $g_t$ 是第 $t$ 步的梯度。
更新一阶矩和二阶矩
- 一阶矩 $m_t$ 是梯度的加权平均，表示梯度的动量，它使得参数更新方向更加平滑。公式为： $m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t,$ 其中， $m_{t-1}$ 是上一步的动量， $g_t$ 是当前的梯度， $\beta_1$ 是衰减因子，控制了动量的记忆程度。通常， $\beta_1$ 接近 1（如0.9），意味着 动量主要由过去的梯度决定，当前的梯度影响较小。
- 二阶矩 $v_t$ 是梯度的平方的加权平均，表示梯度的方差，它帮助调整每个参数的学习率。公式为： $v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2,$ 其中， $v_{t-1}$ 是上一步的二阶矩， $g_t^2$ 是当前梯度的平方， $\beta_2$ 控制了二阶矩的衰减，通常取0.999，这意味着 二阶矩更多地由过去的梯度平方决定。
偏差修正
由于在训练的初期， $m_t$ 和 $v_t$ 都是初始化为0的，这会导致它们在训练初期的估计值偏向0。为次，Adam引入了偏差修正。
- 对一阶矩的偏差修正： $\hat{m}_t = \frac{m_t}{1 - \beta_1^t},$ 其中， $\beta_1^t$ 是在第 $t$ 次迭代时的 $\beta_1$ 的幂次，随着迭代的进行，修正项会逐渐增大，避免初期偏差的影响。
  
  在迭代初期，受初始化的影响， $m_t$ 的值偏向0。所以迭代初期， $\beta_1^t$ 的值较小，相当于给 $m_t$ 乘上了一个较大的系数来进行修正（如 $t = 1$ 时， $\beta_1^t=0.1$ ， $\hat{m}_t =10\times m_t$ ）。随着迭代进行， $\beta_1^t$ 的值越来越大，接近于1，这时对 $m_t$ 的修正作用越来越弱。
- 对二阶矩的偏差修正： $\hat{v}_t = \frac{v_t}{1 - \beta_2^t},$ 同理，二阶矩的偏差修正随着迭代的进行逐渐减小。
更新参数
在计算出 偏差修正后的 一阶矩和二阶矩后，接下来就是更新参数了。更新规则为： $\theta_t = \theta_{t-1} - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon},$ 其中， $\theta_{t-1}$ 是上一步的参数值； $\hat{m}_t$ 是一阶矩的修正值，表示梯度的平均方向； $\hat{v}_t$ 是二阶矩的修正值，表示梯度的方差； $\alpha$ 是学习率； $\epsilon$ 是一个很小的常数（如 $10^{-8}$ ），用来防止在计算更新时除零。

为什么除以梯度方差的平方根 $\sqrt{\hat{v}_t}$ ？

通过除以梯度的方差的平方根来调整学习率，目的是平衡每个参数的更新步长，避免由于梯度的波动造成的过大或过小的更新。
梯度波动性：梯度的大小通常会在每次迭代中波动。固定学习率可能导致某些参数更新过快（梯度大时），而其他参数更新过慢（梯度小或稳定时）。如果梯度波动很大，更新步长也应适当缩小，避免过大的更新。
通过计算梯度的方差（即梯度的波动程度），Adam会根据每个参数的历史梯度信息自动调整学习率。对于梯度波动大的参数，学习率会自动减小；对于梯度波动小的参数，学习率会增大。
举例
假设有两个参数：
$\theta_1$ ：梯度 $g_1 = 0.1$ ，方差 $v_1 = 0.01$ （稳定）。
$\theta_2$ ：梯度 $g_2 = 1.0$ ，方差 $v_2 = 1.0$ （波动大）。
如果使用固定学习率 $\alpha = 0.01$ ，更新步长会不均衡。但在Adam中，经过方差调整后：
$\Delta \theta_1 = \frac{0.01 \cdot 0.1}{\sqrt{0.01}} = 0.01, \quad \Delta \theta_2 = \frac{0.01 \cdot 1.0}{\sqrt{1.0}} = 0.01,$ 这样，两个参数的更新步长变得一致，避免了梯度波动大时步长过大的问题。

通过这种方式，Adam在每次更新时会自动根据梯度的历史信息调整每个参数的学习率。