指数移动平均（为之后调整学习率做铺垫）+有关矩阵求导

本文链接：https://blog.csdn.net/q100112/article/details/135092853

首先上吴恩达老师的计算公式

其中

$\theta _{t}$ 为某一时刻真实值

$v_{t}$ 为某一时刻指数移动平均值

$\beta$ 为权重因子, 通常取值为接近于1的值，如0.9， 0.98， 0.99， 0.999等。 $\beta$ 越小，过去累计值的权重越低，当前抽样值的权重越高，移动平均值的实时性就越强。反之 $\beta$ 越大，吸收瞬时突发值的能力变强，平稳性更好。

举个栗子：

设 $\beta$ =0.9 ，求解 $v_{100}$ 的表达式，过程如下

在计算当前项的指数移动平均值时，我们会加权平均，包含当前项的之前所有项的值。这时我们考虑，到底需要平均多少项的数值。

但是，通过公式可以看出项的权重随着指数系数的增加而减小（因为底数小于1），并趋近于零， $\theta _{1}$ 对应的系数可以看到几乎趋近于0了。这意味指数移动平均值近似于当前项之后一定数量有效项的加权平均的结果（我们假设存在一个阈值，当项的权重系数大于阈值时为有效项；当权重系数衰减到低于阈值则为无效项)。

权重因子

权重因子的作用本质上是控制指数权重平均计算中有效项的数目，即指数平滑有效窗口的大小。

当权重系数小于 $\frac{1}{e}$ 时忽略当前项及之后项的加权值。

有效滑动窗口大小：

有一个问题，可能随着样本的增大，移动平均值会逐渐接近当前值，但是在开始阶段的滑动平均值偏小，与真实值之间具有较大偏差（就是说想参考之前的，他没有之前，比如第一个时刻，他上哪根据之前的数据预测），修正方式：

引入偏差修正公式：

这样就省得该开始 $v_{t}$ 特别小了，当 $t$ 很大的时候，偏差修正项就几乎没有作用了。

以上均来自https://zhuanlan.zhihu.com/p/151786842?tt_from=weixin

接下来自己总结一把：在接下来的课程中，主要是用它来计算学习率怎么根据之前的梯度更新，也就是预测功能。这里用到指数移动平均，主要通过之前的数据进行预测，具体公式就是开头写的，这个实际上是个加权移动。这个表面上是从第一个时刻就能影响离他较远的 $t$ 时刻(如下图），但是离 $t$ 较远的时刻对应的权重系数已经很小了（指数很大，底数小于1），也就是无效了，根据权重因子确定指数平滑有效窗口的大小（看往前捯几个能够影响这次的预测值）往前捯的这几个时刻对应权重也是不同的，几乎指数级变化. $\beta$ 越小，过去累计值的权重越低，当前抽样值的权重越高，移动平均值的实时性就越强。反之 $\beta$ 越大，吸收瞬时突发值的能力变强，平稳性更好。就根据不同需求自己选择了。