深度学习中的Adam优化算法_adam算法优点-CSDN博客

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/113665264

本文介绍了Adam优化算法，一种结合Momentum和RMSprop优点的自适应学习率方法。文章详细阐述了算法背后的统计学概念，包括一阶和二阶矩的计算，并通过伪代码展示了算法流程。Adam通过一阶矩估计方向，二阶矩调整步长，实现了对梯度更新的动态调整，适用于复杂模型和参数稀疏的情况。算法特点包括计算效率高、内存需求小、对梯度尺度不敏感以及适应性强。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

前面的文章 Momentum算法和具有学习率自适应调整的 RMSprop算法，今天来讲一下Adam优化算法，它也是一种可以自适应优化算法。很多人认为Adam算法是 AdaGrad 和 RMSprop 的结合，但是从梯度更新公式来看，本人更倾向于认为它是 Momentum 和 RMSprop 的结合体，吴恩达老师的观点也是如此。

二、随机变量的距

Adam算法涉及到了统计学中距的概念，在此给出一些说明。给定随机变量 $x$ ，一些距的定义如下：

一阶原点距定义为 $E[x]$ ，等于 $x$ 的期望；

二阶原点矩定义为 $E[x^2]$ ，可以理解为均值为 0 情况下的二阶中心距；

二阶中心距定义为 $E[(x-E[x])^2]$ ，等价于 $x$ 的方差；

$t$

三、Adam算法

下面，结合Adam论文中的算法描述，并结合距的概念，一起深入理解一下Adam里面放的是什么大招。下图是Adam算法的伪代码：

输入： 学习率 $\alpha$ ，分别作为梯度的一阶和二阶指数移动加权衰减率 $\beta _1$ 和 $\beta _2$ ，模型参数 $\theta$ ，损失函数 $f(\theta )$ ， $\varepsilon$ 表示数值计算稳定性参数，一般取一个很小的浮点数，为了防止分母为0

第1-3行，初始化梯度 $g_t$ 的一阶指数移动加权平均 $m_t$ 和二阶指数移动加权平均 $v_t$ 。 $m_t$ 是对到目前为止 $g_t$ 的一阶原点距 $E[g_t]$ 的有偏估计， $v_t$ 是对到目前为 $g_t$ 的二阶原点距估计 $E[g^2_t]$ 的有偏估计。

解释： $m_t$ 估计了到目前为止 $g_t$ 各分量的均值， $v_t$ 估计了到目前为止 $g_t$ 各分量的平方的均值。

第4-11行，不断进行梯度下降，直到参数 $\theta _t$ 收敛：

第5-6行，计算第 $t$ 轮迭代的梯度 $g_t$ 。

第 7 行，更新 $g_t$ 的一阶指数移动加权平均 $m_t$ ；

第 8 行，更新 $g_t$ 的二阶指数移动加权平均 $v_t$ ；

第9-10行，在迭代初期， $m_t$ 对 $E[g_t]$ 的估计以及 $v_t$ 对 $E[g^2_t]$ 的估计都是有偏的，需要进行偏差修正，修正系数分别是 $\frac{1}{1-\beta^t_1}$ 和 $\frac{1}{1-\beta^t_2}$ ，随着迭代的进行，估计逐渐变为无偏估计，修正强度逐渐降低为1。

第11行，更新模型参数 $\theta _t$ ，分子表示 $g_t$ 在过去一段时间内各分量的平均值，即梯度更新的大致走向，分母表示 $g_t$ 在过去一段时间内各分量的平均大小。相当于分两步走，第一步是确定一个合适的下降方向（即分子项），第二步，对这个选定的方向上的各个子方向做一下微调（分母项），这样，推进较快的子方向会慢下来，推进较慢的子方向会加快速度，动态调整了各个子方向的学习率。因此，Adam结合了Momentum和RMSprop两种算法的优点。

知乎上对Adam算法的优秀总结：

梯度是一个随机变量，一阶矩表示梯度均值，二阶矩表示其方差，一阶矩来控制模型更新的方向，二阶矩控制步长(学习率)。用moveing average来对一阶矩和二阶矩进行估计。偏差修正是为了缓解初始一阶矩和二阶矩初始为0带来的moving average的影响。

作者：带你飞
链接：https://www.zhihu.com/question/323747423/answer/679051127
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

四、算法优点

1、计算高效，仅执行有限次乘除法；

2、节省内存，每一个时间点仅需要保存 $m_t$ 和 $v_t$ 即可，无需保留每一步的梯度；

3、对梯度尺度不敏感，如将 $\hat{m_t}$ 和 $\hat{v_t}$ 同时缩放一定的倍数 $c$ ，计算结果不受影响；

4、特别适合参数稀疏或者高度复杂的模型的优化；