神经网络优化：指数衰减计算平均值(滑动平均)

最新推荐文章于 2024-08-21 22:21:55 发布

你吃过卤汁牛肉吗

最新推荐文章于 2024-08-21 22:21:55 发布

阅读量3.1k

点赞数 2

分类专栏：深度学习基础深度学习基础理论

深度学习基础理论同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

深度学习基础

12 篇文章 0 订阅

订阅专栏

1. 神经网络优化中的滑动平均

2. 滑动平均详解---用滑动平均估计局部均值

转自：https://blog.csdn.net/qq_18888869/article/details/83009504

1. 神经网络优化中的滑动平均

Polyak平均会平均优化算法在参数空间访问中的几个点。如果t次迭代梯度下降访问了点 $(\theta ^{(1)},...,\theta^{(t)})$ ,那么Polyak平均算法的输出是 $\widehat{\theta}^{(t)}=\frac{1}{t}\sum_{i}\theta ^{(i)}$ 。

当应用Polyak平均于非凸问题时，通常会使用指数衰减计算平均值：

$\widehat{\theta }^{(t)} = \alpha \widehat{\theta}^{(t-1)}+(1-\alpha ) \theta ^{(t)}$

2. 滑动平均详解---用滑动平均估计局部均值

　　滑动平均(exponential moving average)，或者叫做指数加权平均(exponentially weighted moving average)，可以用来估计变量的局部均值，使得变量的更新与一段时间内的历史取值有关（可以看成是变量过去一段时间取值的均值）。

2.1 三种参数更新方式的比较

2.1.1 滑动平均

变量在t时刻记为 $v_{t}$ ， $\theta _{t}$ 为变量v在t时刻的取值，即在不使用滑动平均模型时 $v_{t}=\theta _{t}$ ，在使用滑动平均模型后， $v_{t}$ 的更新公式如下：

$v^{(t)} = \alpha {v}^{(t-1)}+(1-\alpha ) \theta ^{(t)}$ (1)

上式中， $\alpha \in [0,1)$ 。 $\alpha =0$ 相当于没有使用滑动平均。

例如： $\alpha$ 取0.9

2.1.2 带偏差修正的滑动平均

Andrew Ng在Course 2 Improving Deep Neural Networks中讲到，t时刻变量v的滑动平均值大致等于过去 $\frac{1}{1-\alpha }$ 个时刻θ值的平均。这个结论在滑动平均起始时相差比较大，所以有了Bias correction，将 $v^{(t)}$ 除以 $1-\alpha^{t}$ 修正对均值的估计。