←上一篇 | ↓↑ | 下一篇→ |
---|---|---|
2.2 理解 mini-batch 梯度下降法 | 回到目录 | 2.4 理解指数加权平均 |
指数加权平均 (Exponentially Weighted Averages)
我想向你展示几个优化算法,它们比梯度下降法快,要理解这些算法,你需要用到指数加权平均,在统计中也叫做指数加权移动平均,我们首先讲这个,然后再来讲更复杂的优化算法。
虽然现在我生活在美国,实际上我生于英国伦敦。比如我这儿有去年伦敦的每日温度,所以1月1号,温度是40华氏度,相当于4摄氏度。我知道世界上大部分地区使用摄氏度,但是美国使用华氏度。在1月2号是9摄氏度等等。在年中的时候,一年365天,年中就是说,大概180天的样子,也就是5月末,温度是60华氏度,也就是15摄氏度等等。夏季温度转暖,然后冬季降温。
你用数据作图,可以得到以下结果,起始日在1月份,这里是夏季初,这里是年末,相当于12月末。
这里是1月1号,年中接近夏季的时候,随后就是年末的数据,看起来有些杂乱,如果要计算趋势的话,也就是温度的局部平均值,或者说移动平均值。
你要做的是,首先使 v 0 = 0 v_0=0 v0=0 ,每天,需要使用0.9的加权数之前的数值加上当日温度的0.1倍,即 v 1 = 0.9 v 0 + 0.1 θ 1 v_1=0.9v_0+0.1\theta_1 v1=0.9v0+0.1θ1 ,所以这里是第一天的温度值。
第二天,又可以获得一个加权平均数,0.9乘以之前的值加上当日的温度0.1倍,即 v 2 = 0.9 v 1 + 0.1 θ 2 v_2=0.9v_1+0.1\theta_2 v2=0.9v1+0.1θ2 ,以此类推。
第二天值加上第三日数据的0.1,如此往下。大体公式就是某天的 v v v 等于前一天 v v v 值的0.9加上当日温度的0.1。
如此计算,然后用红线作图的话,便得到这样的结果。
你得到了移动平均值,每日温度的指数加权平均值。
看一下上一张幻灯片里的公式, v t = 0.9 v t − 1 + 0.1 θ t v_t=0.9v_{t-1}+0.1\theta_t vt=0.9vt−1+0.1θt ,我们把0.9这个常数变成 β \beta β ,将之前的0.1变成 ( 1 − β ) (1-\beta) (1−β) ,即 v t = β v t − 1 + ( 1 − β ) θ t v_t=\beta v_{t-1}+(1-\beta)\theta_t vt=βvt−1+(1−β)θt
由于以后我们要考虑的原因,在计算时可视 v t v_t vt 大概是 1 ( 1 − β ) \frac 1{(1-\beta)} (1−β)1 的每日温度,如果 β \beta β 是0.9,你会想,这是十天的平均值,也就是红线部分。
我们来试试别的,将 β \beta β 设置为接近1的一个值,比如0.98,计算 1 ( 1 − 0.98 ) = 50 \frac1{(1-0.98)}=50 (1−0.98)1=50 ,这就是粗略平均了一下,过去50天的温度,这时作图可以得到绿线。
这个高值 β \beta β 要注意几点,你得到的曲线要平坦一些,原因在于你多平均了几天的温度,所以这个曲线,波动更小,更加平坦,缺点是曲线进一步右移,因为现在平均的温度值更多,要平均更多的值,指数加权平均公式在温度变化时,适应地更缓慢一些,所以会出现一定延迟,因为当 β = 0.98 \beta=0.98 β=0.98 ,相当于给前一天的值加了太多权重,只有0.02的权重给了当日的值,所以温度变化时,温度上下起伏,当 β \beta β 较大时,指数加权平均值适应地更缓慢一些。
我们可以再换一个值试一试,如果 β \beta β 是另一个极端值,比如说0.5,根据右边的公式( 1 ( 1 − β ) \frac1{(1-\beta)} (1−β)1 ),这是平均了两天的温度。
作图运行后得到黄线。
由于仅平均了两天的温度,平均的数据太少,所以得到的曲线有更多的噪声,有可能出现异常值,但是这个曲线能够更快适应温度变化。
所以指数加权平均数经常被使用,再说一次,它在统计学中被称为指数加权移动平均值,我们就简称为指数加权平均数。通过调整这个参数( β \beta β ),或者说后面的算法学习,你会发现这是一个很重要的参数,可以取得稍微不同的效果,往往中间有某个值效果最好, β \beta β 为中间值时得到的红色曲线,比起绿线和黄线更好地平均了温度。
现在你知道计算指数加权平均数的基本原理,下一个视频中,我们再聊聊它的本质作用。
课程PPT
←上一篇 | ↓↑ | 下一篇→ |
---|---|---|
2.2 理解 mini-batch 梯度下降法 | 回到目录 | 2.4 理解指数加权平均 |