2.3 指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授


←上一篇↓↑下一篇→
2.2 理解 mini-batch 梯度下降法回到目录2.4 理解指数加权平均

指数加权平均 (Exponentially Weighted Averages)

我想向你展示几个优化算法,它们比梯度下降法快,要理解这些算法,你需要用到指数加权平均,在统计中也叫做指数加权移动平均,我们首先讲这个,然后再来讲更复杂的优化算法。

在这里插入图片描述

虽然现在我生活在美国,实际上我生于英国伦敦。比如我这儿有去年伦敦的每日温度,所以1月1号,温度是40华氏度,相当于4摄氏度。我知道世界上大部分地区使用摄氏度,但是美国使用华氏度。在1月2号是9摄氏度等等。在年中的时候,一年365天,年中就是说,大概180天的样子,也就是5月末,温度是60华氏度,也就是15摄氏度等等。夏季温度转暖,然后冬季降温。

在这里插入图片描述

你用数据作图,可以得到以下结果,起始日在1月份,这里是夏季初,这里是年末,相当于12月末。

在这里插入图片描述

这里是1月1号,年中接近夏季的时候,随后就是年末的数据,看起来有些杂乱,如果要计算趋势的话,也就是温度的局部平均值,或者说移动平均值。

在这里插入图片描述

你要做的是,首先使 v 0 = 0 v_0=0 v0=0 ,每天,需要使用0.9的加权数之前的数值加上当日温度的0.1倍,即 v 1 = 0.9 v 0 + 0.1 θ 1 v_1=0.9v_0+0.1\theta_1 v1=0.9v0+0.1θ1 ,所以这里是第一天的温度值。

第二天,又可以获得一个加权平均数,0.9乘以之前的值加上当日的温度0.1倍,即 v 2 = 0.9 v 1 + 0.1 θ 2 v_2=0.9v_1+0.1\theta_2 v2=0.9v1+0.1θ2 ,以此类推。

第二天值加上第三日数据的0.1,如此往下。大体公式就是某天的 v v v 等于前一天 v v v 值的0.9加上当日温度的0.1。

如此计算,然后用红线作图的话,便得到这样的结果。

在这里插入图片描述

你得到了移动平均值,每日温度的指数加权平均值。

看一下上一张幻灯片里的公式, v t = 0.9 v t − 1 + 0.1 θ t v_t=0.9v_{t-1}+0.1\theta_t vt=0.9vt1+0.1θt ,我们把0.9这个常数变成 β \beta β ,将之前的0.1变成 ( 1 − β ) (1-\beta) (1β) ,即 v t = β v t − 1 + ( 1 − β ) θ t v_t=\beta v_{t-1}+(1-\beta)\theta_t vt=βvt1+(1β)θt

在这里插入图片描述

由于以后我们要考虑的原因,在计算时可视 v t v_t vt 大概是 1 ( 1 − β ) \frac 1{(1-\beta)} (1β)1 的每日温度,如果 β \beta β 是0.9,你会想,这是十天的平均值,也就是红线部分。

我们来试试别的,将 β \beta β 设置为接近1的一个值,比如0.98,计算 1 ( 1 − 0.98 ) = 50 \frac1{(1-0.98)}=50 (10.98)1=50 ,这就是粗略平均了一下,过去50天的温度,这时作图可以得到绿线。

在这里插入图片描述

这个高值 β \beta β 要注意几点,你得到的曲线要平坦一些,原因在于你多平均了几天的温度,所以这个曲线,波动更小,更加平坦,缺点是曲线进一步右移,因为现在平均的温度值更多,要平均更多的值,指数加权平均公式在温度变化时,适应地更缓慢一些,所以会出现一定延迟,因为当 β = 0.98 \beta=0.98 β=0.98 ,相当于给前一天的值加了太多权重,只有0.02的权重给了当日的值,所以温度变化时,温度上下起伏,当 β \beta β 较大时,指数加权平均值适应地更缓慢一些。

我们可以再换一个值试一试,如果 β \beta β 是另一个极端值,比如说0.5,根据右边的公式( 1 ( 1 − β ) \frac1{(1-\beta)} (1β)1 ),这是平均了两天的温度。

在这里插入图片描述

作图运行后得到黄线。

在这里插入图片描述

由于仅平均了两天的温度,平均的数据太少,所以得到的曲线有更多的噪声,有可能出现异常值,但是这个曲线能够更快适应温度变化。

所以指数加权平均数经常被使用,再说一次,它在统计学中被称为指数加权移动平均值,我们就简称为指数加权平均数。通过调整这个参数( β \beta β ),或者说后面的算法学习,你会发现这是一个很重要的参数,可以取得稍微不同的效果,往往中间有某个值效果最好, β \beta β 为中间值时得到的红色曲线,比起绿线和黄线更好地平均了温度。

现在你知道计算指数加权平均数的基本原理,下一个视频中,我们再聊聊它的本质作用。

课程PPT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


←上一篇↓↑下一篇→
2.2 理解 mini-batch 梯度下降法回到目录2.4 理解指数加权平均

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Zhao-Jichao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值