深度学习_深度学习基础_滑动平均详解

Rocky Ding*

已于 2022-09-12 15:01:14 修改

阅读量3.1k

点赞数 1

分类专栏： # 深度学习基础知识文章标签：神经网络深度学习机器学习滑动平均梯度下降

于 2020-08-05 14:29:49 首次发布

本文链接：https://blog.csdn.net/Rocky6688/article/details/107812827

版权

深度学习基础知识专栏收录该内容

30 篇文章 6 订阅

订阅专栏

滑动平均（exponential moving average），或者叫做指数加权平均（exponentially weighted moving avergae），可以用来估计变量的局部均值，使得变量的更新与一段时间内的历史取值有关。

变量 $v$ 在 $t$ 时刻记为 $v_{t}$ ， $\theta_{t}$ 为变量 $v$ 在 $t$ 时刻训练后的取值，当不使用滑动平均模型时 $v_{t} = \theta_{t}$ ，在使用滑动平均模型后， $v_{t}$ 的更新公式如下：

上式中， $\beta\epsilon[0,1)$ 。 $\beta = 0$ 相当于没有使用滑动平均。

$t$ 时刻变量 $v$ 的滑动平均值大致等于过去 $1/(1-\beta)$ 个时刻 $\theta$ 值的平均。并使用bias correction将 $v_{t}$ 除以 $\beta^{t})$ 修正对均值的估计。

加入Bias correction后， $v_{t}$ 和 $v_{biased_{t}}$ 的更新公式如下：

当 $t$ 越大， $\beta^{t}$ 越接近1，则公式（1）和（2）得到的结果（ $v_{t}$ 和 $v_{biased_{1}}$ ）将越来越接近。

当 $\beta$ 越大时，滑动平均得到的值越和 $\theta$ 的历史值相关。如果 $\beta = 0.9$ ，则大致等于过去10个 $\theta$ 值的平均；如果 $\beta = 0.99$ ，则大致等于过去100个 $\theta$ 值的平均。

下图代表不同方式计算权重的结果：

如上图所示，滑动平均可以看作是变量的过去一段时间取值的均值，相比对变量直接赋值而言，滑动平均得到的值在图像上更加平缓光滑，抖动性更小，不会因为某种次的异常取值而使得滑动平均值波动很大。

滑动平均的优势： 占用内存少，不需要保存过去10个或者100个历史 $\theta$ 值，就能够估计其均值。滑动平均虽然不如将历史值全保存下来计算均值准确，但后者占用更多内存，并且计算成本更高。

为什么滑动平均在测试过程中被使用？

滑动平均可以使模型在测试数据上更鲁棒（robust）。

采用随机梯度下降算法训练神经网络时，使用滑动平均在很多应用中都可以在一定程度上提高最终模型在测试数据上的表现。

训练中对神经网络的权重 $w e i g h t s$ 使用滑动平均，之后在测试过程中使用滑动平均后的 $w e i g h t s$ 作为测试时的权重，这样在测试数据上效果更好。因为滑动平均后的 $w e i g h t s$ 的更新更加平滑，对于随机梯度下降而言，更平滑的更新说明不会偏离最优点很远。比如假设decay=0.999，一个更直观的理解，在最后的1000次训练过程中，模型早已经训练完成，正处于抖动阶段，而滑动平均相当于将最后的1000次抖动进行了平均，这样得到的权重会更加鲁棒。