【深度学习】指数加权滑动平均

最新推荐文章于 2025-03-10 19:34:22 发布

Legolas~

最新推荐文章于 2025-03-10 19:34:22 发布

阅读量2.7k

点赞数 3

分类专栏：深度学习文章标签：深度学习指数加权滑动平均 momentum参数 EWMA

本文链接：https://blog.csdn.net/qq_38883271/article/details/107483116

版权

深度学习专栏收录该内容

32 篇文章

订阅专栏

加权平均：
我们常用的算术平均属于加权平均的特殊形式，只不过算术平均各项权重都相等。
加权滑动平均：
原理与加权平均类似，但重点在“滑动”一词，即该平均过程就好似从第一个值依次向后滑动，直到滑动到最后一个值，言外之意就是，第n个值取决于第n-1个值。
滑动平均递推公式：
在这里插入图片描述
一般设 $v_0$ =0，由上述公式可知：

在这里插入图片描述
通过数学归纳法可知：

最终所要求得的加权滑动平均值即为 $v_t$ 。但是问题又随之出现了，前几个 $v_t$ （通过递推公式得到的）与它们各自的原始值偏差很大，由于 $v_0$ =0，而 $\beta$ （又称为衰减率）的值在区间[0,1)内，所以通过递推公式得到的 $v_1$ 的值会远远小于原始值 $\theta_1$ ， $v_2$ 和 $v_3$ 的值也会较 $\theta_2$ 和 $\theta_3$ 有所偏差。为此在上述公式的基础之上做了改进，即
在这里插入图片描述
该式即为指数加权滑动平均的公式。
当t=1时，对应 $v_t$ = $v_1$ ，1- $\beta^t$ =1- $\beta$ ，通过递推公式我们发现此时 $v_1$ = $\theta_1$ ，很好地解决了偏差较大的问题。而且由于 $\beta$ 在区间[0,1)内，所以随着t的增大，指数加权滑动平均公式的分母越来越趋近于1，对于偏差很小的数又减弱了该指数项的影响。

import numpy as np
import matplotlib.pyplot as plt
import math

theta = [0, 10, 20, 10, 0, 10, 20, 30, 5, 0, 10, 20, 10, 0, 10, 20,
         30, 5, 0, 10, 20, 10, 0, 10, 20, 30, 5, 0, 10, 20, 10, 0,
         10, 20, 30, 5]

def moving_ave(theta, beta):
    theta = np.array(theta).reshape((-1, 1))
    m, n = theta.shape
    v = np.zeros((m, 1))
    for i in range(1, m):
        v[i, :] = beta * v[i-1, :] + (1 - beta) * theta[i, :]
    return v

def exp_moving_ave(theta, beta):
    theta = np.array(theta).reshape((-1, 1))
    m, n = theta.shape
    v = np.zeros((m, 1))
    for i in range(1, m):
        v[i, :] = (beta * v[i-1, :] + (1 - beta) * theta[i, :])
    for i in range(1, m):
        v[i, :] /= (1 - beta**i)
    return v

v = moving_ave(theta, 0.9)
v_exp = exp_moving_ave(theta, 0.9)

plt.plot(theta, lw=2, marker='*', label=r'$v_t$=$\theta_t$')
plt.plot(v[:, 0], lw=2, color='darkorange', marker='*', label=r'$v_t$=$\beta$$v_{t-1}$+(1-$\beta$)$\theta_t$')
plt.plot(v_exp[:, 0], lw=2, color='green', marker='*', label=r'$v_t$=$v_t$/(1-$\beta^t$)')
plt.legend()
plt.show()

在这里插入图片描述
通过上图可以明显地看出加权滑动平均和指数加权滑动平均之间的差别。
keras的BatchNormalization函数（批次归一化）中的momentum参数即为加权滑动平均的 $\beta$ (初始值为0.99)。 $\beta$ 的值越接近1，前几个数值的权重越高，滑动平均的结果越取决于前t个值。若 $\beta$ 的值越接近0，前几个数值权重越低，滑动平均的结果越取决于距离 $v_t$ 最近的几个数值。

tf.keras.layers.BatchNormalization(
    axis=-1,
    momentum=0.99,
    epsilon=0.001,
    center=True,
    scale=True,
    beta_initializer="zeros",
    gamma_initializer="ones",
    moving_mean_initializer="zeros",
    moving_variance_initializer="ones",
    beta_regularizer=None,
    gamma_regularizer=None,
    beta_constraint=None,
    gamma_constraint=None,
    renorm=False,
    renorm_clipping=None,
    renorm_momentum=0.99,
    fused=None,
    trainable=True,
    virtual_batch_size=None,
    adjustment=None,
    name=None,
    **kwargs
)