2020-6-1 吴恩达-改善深层NN-w2 优化算法(2.4 理解指数加权平均--平均值就是达到指数衰减到峰值的三分之一的天数)

最新推荐文章于 2024-10-13 20:22:24 发布

没人不认识我

最新推荐文章于 2024-10-13 20:22:24 发布

阅读量401

点赞数

分类专栏： python 深度学习 IT 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42555985/article/details/106465380

版权

IT 同时被 3 个专栏收录

389 篇文章 4 订阅

订阅专栏

深度学习

274 篇文章 24 订阅

订阅专栏

python

233 篇文章 0 订阅

订阅专栏

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

2.4 理解指数加权平均 Understanding exponentially weighted averages

指数加权平均数，是几个优化算法中的关键一环，这些优化算法能帮助你训练NN。
本节将进一步探讨指数加权平均的本质作用。

上节介绍过指数加权平均数的关键方程如下
$v_t=\beta v_{t-1}+(1-\beta)\theta_t$

下图是伦敦一年气温图
在这里插入图片描述

上图中， $\beta=0.9$ 得到的结果是红线；如果它更接近于1，比如 $\beta=0.98$ ，结果就是绿线；如果小一点，如果是 $\beta=0.5$ ，结果就是黄线。

现在进一步地分析，来理解如何计算出每日温度的平均值。

根据公式 $v_t=\beta v_{t-1}+(1-\beta)\theta_t$ ， $\beta=0.9$ ，t值变化，可以得到以下公式

$v_{100}=0.9v_{99}+0.1\theta_{100}$
$v_{99}=0.9v_{98}+0.1\theta_{99}$
$v_{98}=0.9v_{97}+0.1\theta_{98}$
…

首先看第一个公式，理解 $v_{100}$ 是什么。
我们调换一下这两项 $0.9v_{99}$ 和 $0.1\theta_{100}$ ，得到 $v_{100}=0.1\theta_{100}+0.9v_{99}$

同理，得到 $v_{99}=0.1\theta_{99}+0.9v_{98}$ 。再代入 $v_{100}$ ，得到
$v_{100}=0.1\theta_{100}+0.9(0.1\theta_{99}+0.9v_{98})$

同理，把 $v_{98}$ 再代入，得到
$v_{100}=0.1\theta_{100}+0.9(0.1\theta_{99}+0.9(0.1\theta_{98}+0.9v_{97}))$

以此类推，把括号展开后，最终可以得到公式
$v_{100}=0.1\theta_{100}+0.1*0.9\theta_{99}+0.1*(0.9)^2\theta_{98}+0.1*(0.9)^3\theta_{97}+0.1*(0.9)^4\theta_{96}+......$
整个过程就是100天温度数据加和并平均的过程。

所有的这些系数（0.1， $0.1 * 0.9$ ， $0.1*(0.9)^2$ ，0.1*(0.9)^3， $0.1*(0.9)^4$ ，…），相加起来为1或者逼近1，我们称之为偏差修正，以后会介绍的。因为有了偏差修正，上面的公式才是指数加权平均。

$v_{100}$ 中100天的温度数据可以绘制类似下图，t是日期， $\theta_t$ 是温度
在这里插入图片描述

然后我们构建一个指数衰减函数，从0.1开始，到 $0.1 * 0.9$ ，到 $0.1*(0.9)^2$ ，以此类推，得到如下指数衰减函数。
在这里插入图片描述

计算 $v_{100}$ 就是把上面2个图对应的元素逐一相乘，然后求和的过程。

那么需要平均多少天的温度？

我们知道 $(0.9)^{10}\approx 0.35$ ，大约为是 $\frac 1e$ ，e是自然算法的基础之一。

本例中， $\beta=0.9$ ，所以 $\beta^{\frac 1{1-\beta}}\approx 0.35\approx \frac1e$ 。

换句话说，10天后，曲线的高度下降到大约 $\frac 13$ ，即0.35，相当于在峰值的 $\frac 1e$ 。
在这里插入图片描述

我们可以说，当 $\beta=0.9$ 的时候，你计算指数加权平均数，只关注了过去10天的温度。因为10天后，权重下降到不到当日权重的三分之一。

如果 $\beta=0.98$ 需要多少次方才能达到这么小的数值（ $\frac1e$ ）？

$(0.98)^{50}\approx 0.35\approx \frac1e$ ，你可以看作平均了50天的温度。

总结一下，你会发现计算指数加权平均，大约平均了 $\frac 1{1-\beta}$ 天温度。也就是上节课中提到过的近似公式，每日温度的指数加权平均值 $v_t\approx \frac 1{1−β}θ_t$ 。

现在你已经知道根据常数 $\beta$ ，就能大概知道能够平均多少日的温度。不过这只是思考的大致方向，并不是正式的数学证明。

上节课已经提到过每日温度的指数加权平均值数学公式如下
在这里插入图片描述

归纳一下， $v:=\beta v+(1-\beta)\theta_t$ 。

有些人会把 $v$ 加下标，来表示 $v$ 是计算数据的指数加权平均数。
在这里插入图片描述

所以 $v_\theta:=\beta v_\theta+(1-\beta)\theta_t$ 。

指数加权平均数公式的好处之一在于，它占用极少内存。电脑内存中只占用一行数字而已，然后把最新数据代入公式 $v_\theta:=\beta v_\theta+(1-\beta)\theta_t$ ，不断覆盖就可以了。正因为这个原因，它基本上只占用一行代码，计算指数加权平均数也只占用单行数字的存储和内存。