指数移动平均（Exponential Moving Average, EMA）

最新推荐文章于 2025-03-08 17:29:55 发布

AIM086

最新推荐文章于 2025-03-08 17:29:55 发布

阅读量2.6k

点赞数 31

分类专栏：对比学习文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/qq_43538018/article/details/144910845

版权

对比学习专栏收录该内容

4 篇文章

订阅专栏

指数移动平均（EMA）是一种加权平均方法，用于计算一组时间序列数据的平滑平均值。它在计算平均值时，对近期数据赋予更高的权重，而对较早的数据赋予较低的权重。相对于简单平均值，EMA 更敏感于最新的数据变化。

假设我们有一个时间序列数据 $x_1, x_2, \dots, x_t$ ，其指数移动平均（EMA）可以递归地计算为： $EMA_t = \alpha \cdot x_t + (1 - \alpha) \cdot EMA_{t-1},$ 其中， $EMA_t$ 为时间 $t$ 的指数移动平均值， $x_t$ 是时间 $t$ 的实际数据值， $EMA_{t-1}$ 是时间 $t - 1$ 的指数移动平均值。 $\alpha$ 是平滑因子超参数，通常 $\alpha \in (0, 1)$ ，来控制新数据与历史数据的权重分配， $\alpha$ 越大，EMA 对近期数据变化越敏感， $\alpha$ 越小，EMA 趋于更加平滑，更依赖历史数据。常用公式计算 $\alpha$ ： $\alpha = \frac{2}{N + 1}$ 其中， $N$ 是用户定义的时间窗口大小（即考虑多少个数据点）。

EMA 的递归公式可以展开为： $EMA_t = \alpha \cdot x_t + \alpha \cdot (1 - \alpha) \cdot x_{t-1} + \alpha \cdot (1 - \alpha)^2 \cdot x_{t-2} + \dots,$ 从公式可以看出，最近的数据 $x_t$ 权重最高，为 $\alpha$ ，较早的数据权重按指数递减（如 $\alpha (1 - \alpha)$ ）。

EMA 在深度学习中有广泛的应用，以下是几个主要场景：

权重更新
在对比学习方法，如MoCo中，动量编码器的参数通过 EMA 更新： $\theta_k = m \cdot \theta_k + (1 - m) \cdot \theta_q,$ 其中， $\theta_k$ 是动量编码器的参数， $\theta_q$ 是主编码器的参数， $m$ 是动量因子（通常 $m = 0.999$ ）。通过 EMA 平滑动量编码器的参数更新，保证其特征表示的稳定性，避免频繁变化导致训练不稳定。
模型参数的移动平均
在训练过程中，EMA 用于对模型权重进行平滑，计算每次更新后的 历史平均权重： $\theta^{EMA}_t = \alpha \cdot \theta_t + (1 - \alpha) \cdot \theta^{EMA}_{t-1},$ 训练结束后，可以直接使用 EMA 权重进行推理（而不是最新的权重），以提升模型的泛化能力。YOLO 等目标检测模型中使用 EMA 提升检测性能。
学习率的动态调整
EMA 可以用于平滑地计算梯度变化，从而动态调整优化器的学习率（如 Adam 优化器中的二阶动量估计）。