2.4 理解指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

最新推荐文章于 2024-09-27 20:57:01 发布

Zhao-Jichao

最新推荐文章于 2024-09-27 20:57:01 发布

阅读量3k

点赞数 7

分类专栏：深度学习DL 文章标签：神经网络机器学习大数据人工智能算法

本文链接：https://blog.csdn.net/weixin_36815313/article/details/105411338

版权

深度学习DL 专栏收录该内容

206 篇文章 2910 订阅

订阅专栏

←上一篇	↓↑	下一篇→
2.3 指数加权平均	回到目录	2.5 指数加权平均的偏差修正

理解指数加权平均 (Understanding Exponentially Weighted Averages)

上个视频中，我们讲到了指数加权平均数，这是几个优化算法中的关键一环，而这几个优化算法能帮助你训练神经网络。本视频中，我希望进一步探讨算法的本质作用。

回忆一下这个计算指数加权平均数的关键方程。

$v_t=\beta v_{t-1}+(1-\beta)\theta_t$

$\beta=0.9$ 的时候，得到的结果是红线，如果它更接近于1，比如0.98，结果就是绿线，如果 $\beta$ 小一点，如果是0.5，结果就是黄线。

在这里插入图片描述

我们进一步地分析，来理解如何计算出每日温度的平均值。

同样的公式， $v_t=\beta v_{t-1}+(1-\beta)\theta_t$

使 $\beta=0.9$ ，写下相应的几个公式，所以在执行的时候， $t$ 从0到1到2到3， $t$ 的值在不断增加，为了更好地分析，我写的时候使得 $t$ 的值不断减小，然后继续往下写。

在这里插入图片描述

首先看第一个公式，理解 $v_{100}$ 是什么？我们调换一下这两项（ $0.9v_{99}0.1\theta_{100}$ ）， $v_{100}=0.1\theta_{100}+0.9v_{99}$ 。

那么 $v_{99}$ 是什么？我们就代入这个公式（ $v_{99}=0.1\theta_{99}+0.9v_{98}$ ），所以： $v_{100}=0.1\theta_{100}+0.9(0.1\theta_{99}+0.9v_{98})$

那么 $v_{98}$ 是什么？我们就代入这个公式（ $v_{98}=0.1\theta_{98}+0.9v_{97}$ ），所以： $v_{100}=0.1\theta_{100}+0.9(0.1\theta_{99}+0.9(0.1\theta_{98}+0.9v_{97}))$

以此类推，如果你把这些括号都展开，

$v_{100}=0.1\theta_{100}+0.1*0.9\theta_{99}+0.1*0.9^2\theta_{98}+0.1*0.9^3\theta_{97}+0.1*0.9^4\theta_{96}+\cdots$
在这里插入图片描述

所以这是一个加和并平均，100号数据，也就是当日温度。我们分析 $v_{100}$ 的组成，也就是在一年第100天计算的数据，但是这个是总和，包括100号数据，99号数据，97号数据等等。画图的一个办法是，假设我们有一些日期的温度，所以这是数据，这是 $t$ ，所以100号数据有个数值，99号数据有个数值，98号数据等等， $t$ 为100，99，98等等，这就是数日的温度数值。

在这里插入图片描述

然后我们构建一个指数衰减函数，从0.1开始，到 $0.1 * 0.9$ ，到 $0.1*0.9^2$ ，以此类推，所以就有了这个指数衰减函数。

在这里插入图片描述

计算 $v_{100}$ 是通过，把两个函数对应的元素，然后求和，用这个数值100号数据值乘以0.1，99号数据值乘以0.1乘以 $0.9^2$ ，这是第二项，以此类推，所以选取的是每日温度，将其与指数衰减函数相乘，然后求和，就得到了 $v_{100}$ 。

在这里插入图片描述

结果是，稍后我们详细讲解，不过所有的这些系数（ $0.10.1+0.90.1*0.9^20.1*0.9^3\dots$ ），相加起来为1或者逼近1，我们称之为偏差修正，下个视频会涉及。

最后也许你会问，到底需要平均多少天的温度。实际上 $0.9^{10}$ 大约为0.35，这大约是 $\frac1e$ ， $e$ 是自然算法的基础之一。大体上说，如果有 $1-\epsilon$ ，在这个例子中， $\epsilon=0.1$ ，所以 $1-\epsilon=0.9$ ， $(1-\epsilon)^{\frac1\epsilon}$ 约等于 $\frac1e$ ，大约是0.34，0.35，换句话说，10天后，曲线的高度下降到 $\frac13$ ，相当于在峰值的 $\frac1e$ 。

在这里插入图片描述

又因此当 $\beta=0.9$ 的时候，我们说仿佛你在计算一个指数加权平均数，只关注了过去10天的温度，因为10天后，权重下降到不到当日权重的三分之一。

在这里插入图片描述

相反，如果，那么0.98需要多少次方才能达到这么小的数值？ $0.98^{50}$ 大约等于 $\frac1e$ ，所以前50天这个数值比 $\frac1e$ 大，数值会快速衰减，所以本质上这是一个下降幅度很大的函数，你可以看作平均了50天的温度。因为在例子中，要代入等式的左边， $\epsilon=0.02$ ，所以 $\frac1\epsilon$ 为50，我们由此得到公式，我们平均了大约 $\frac1{(1-\beta)}$ 天的温度，这里 $\epsilon$ 代替了 $1-\beta$ ，也就是说根据一些常数，你能大概知道能够平均多少日的温度，不过这只是思考的大致方向，并不是正式的数学证明。

在这里插入图片描述

最后讲讲如何在实际中执行，还记得吗？我们一开始将 $v_0$ 设置为0，然后计算第一天 $v_1$ ，然后 $v_2$ ，以此类推。

现在解释一下算法，可以将 $v_0$ ， $v_1$ ， $v_2$ 等等写成明确的变量，不过在实际中执行的话，你要做的是，一开始将 $v$ 初始化为0，然后在第一天使 $v:=\beta v+(1-\beta)\theta_1$ ，然后第二天，更新 $v$ 值， $v:=\beta v+(1-\beta)\theta_2$ ，以此类推，有些人会把 $v$ 加下标，来表示 $v$ 是用来计算数据的指数加权平均数。

在这里插入图片描述

再说一次，但是换个说法， $v_\theta=0$ ，然后每一天，拿到第 $t$ 天的数据，把 $v$ 更新为 $v_t=\beta v_{\theta}+(1-\beta)\theta_t$ 。

指数加权平均数公式的好处之一在于，它占用极少内存，电脑内存中只占用一行数字而已，然后把最新数据代入公式，不断覆盖就可以了，正因为这个原因，其效率，它基本上只占用一行代码，计算指数加权平均数也只占用单行数字的存储和内存，当然它并不是最好的，也不是最精准的计算平均数的方法。如果你要计算移动窗，你直接算出过去10天的总和，过去50天的总和，除以10和50就好，如此往往会得到更好的估测。但缺点是，如果保存所有最近的温度数据，和过去10天的总和，必须占用更多的内存，执行更加复杂，计算成本也更加高昂。

所以在接下来的视频中，我们会计算多个变量的平均值，从计算和内存效率来说，这是一个有效的方法，所以在机器学习中会经常使用，更不用说只要一行代码，这也是一个优势。

现在你学会了计算指数加权平均数，你还需要知道一个专业概念，叫做偏差修正，下一个视频我们会讲到它，接着你就可以用它构建更好的优化算法，而不是简单直接的梯度下降法。