吴恩达深度学习02-2.3 指数加权平均

最新推荐文章于 2024-06-24 16:20:40 发布

CtrlZ1

最新推荐文章于 2024-06-24 16:20:40 发布

阅读量643

点赞数

分类专栏：吴恩达深度学习课程文章标签：深度学习人工智能 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41076797/article/details/110768164

版权

吴恩达深度学习课程专栏收录该内容

15 篇文章 1 订阅

订阅专栏

目录

引例
理解指数加权平均
误差修正
用处

引例

在这里插入图片描述

吴恩达老师是以气温折线图为例子展开论述的。横坐标是某天，纵坐标是温度，然后图中蓝色的点代表某天的气温。
上文的公式就是绘制红色、绿色、黄色曲线所用到的指数加权平均公式，公式中的参数β分别设置为0.9、0.98、0.5，对应曲线红色、绿色、黄色。
然后右面的公式1/(1-β)是相当于指数加权平均所平均的天数x，可以理解为绘制某点q的时候综合了前面x天的气温平均得来的该点q的温度。
所以当β=0.98的时候，综合了前面50天的气温，由此可知，它对于温度变化的反应是比较慢的，因为过去的气温影响目前气温的能力太强了，它拥有0.98的比重，所以对应图中的绿色曲线，也正因为它平均了太多天，所以它的曲线相对平滑。
相反的是β=0.5，它只考虑了两天，所以它和原来的曲线趋势非常贴近，所以波动幅度巨大，相对不平滑，噪声很大。对应图中的黄色线。
而红色则是比较折中的曲线，它考虑了10天的平均情况。
不同的β可以起到不同的效果，从图中曲线我们也可以知道，该方法还有平滑曲线的作用。

理解指数加权平均

那么问题来了，图中天数的确定有何道理嘛？
其实我们可以展开指数加权平均的公式：

我们发现，随着递归计算的不断执行，v的值前的系数越来越小，大约到1/(1-β)次的时候，对应的v值前的系数就已经大概接近1/e了，以β=0.9为例，大约到10次的时候，对应的v值前面的系数大概是1/e了。系数已经很小了，所以基本可以认为是近10天的气温的影响作用比较大了。
至于为什么是1/(1-β)吴恩达老师并未在视频中详述。我觉得应该是β的1/(1-β)次方约等于1/e吧
另外一个问题是，指数加权平均有何优点？
咱们可以从它的过程中显而易见的知道，指数加权平均是存在误差的，试想一下，如果你想计算近10天的平均，那么保存下所有的温度，然后在for循环的时候，用某个值来存储10天的温度之和再除以10不就好了嘛（也就是移动窗口），而且还没有误差，为什么非得采取有误差的指数加权平均法呢？答案很简单，就是为了不花费资源来存储这些数值，指数加权平均本质是一种递归方法，可以利用前一次的值来得到当前需要求得的值，所以只需要一个变量即可实现过程。

误差修正

在这里插入图片描述

误差修正指的是图像刚开始阶段的误差。看左侧公式，由于v0是0所以计算得到的v1和v2大大小于准确值，使得图像刚开始起步缓慢，如图紫色曲线所示。
修正的方法是计算得到的vt再乘以1/(1-β的t次方)，如图中公式所示。如此一来，刚开始阶段的误差便缩小了，当t足够大的时候，便不怎么需要进行误差修正了，正好这个公式也体现了这一点，t足够大时分母几乎为1。
至于为什么这个误差只影响开头呢？你一看v1，v2的值小的有点可怕呀！本能的产生一个反应，这递归是影响全局的，难道开头这么小，不影响后面部分嘛？还真不影响，因为你忽略了公式的另一个小项(1-β)*θ $_{t}$ ，不要小看这一项，由于θ $_{t}$ 的合理性，能够硬生生将初始发育不良的v给奶起来，而且由(1-β)可知，β越小，奶的越快。然后也不会过于奶，因为其递归本身就反应了曲线走势，所以很快就回归正轨了，特别是β越小，回归正轨的速度越快。
但是，有时候我们根本无需误差修正，比如在使用动量(Momentum)的随机梯度下降法(SGD) 中，就不需要进行修正：

原因是，β经常取0.9，此时相当于平均近10次的，但是v10已经足够回归正轨了（也就是说已经被奶回来了），10次是个比较小的数值，往往对于w和b的更新要远远大于10次，所以并不影响最后的结果。其实本就是如此，需要修正的时候很少，但是需要了解这些知识。

用处

最后我还想问一点，指数加权平均有何用？你是不是有点懵，讲了一大堆，问你这玩意有何用的时候，你哽咽了。
其实这种方法大多用在深度学习的优化器中，在使用动量(Momentum)的随机梯度下降法(SGD) 中，对w和b进行更新的时候，就用到了类似指数加权平均的方法，起到了快速收敛的作用（快于传统的梯度下降，至于为什么可以详见我的另一篇对于优化器的总结——https://blog.csdn.net/qq_41076797/article/details/110674020）。
也就是说，指数加权平均可以应用在深度学习中，起到了在梯度下降中快速收敛的作用。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CtrlZ1 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。