简介
这篇讲ARIMA。前一篇谈到ETS的灵感来自于两个极端方案的折中,一个极端是只用最近的一次观测,一个是求平均,折中方案是用指数衰减来用到所有点,同时又给近期观测更高的权重。换个角度看,这两个极端反映的其实是两个朴素的观念。其一,近期的数据由于recency的关系,对揭示未来也许更有帮助。其二,只依赖近期的数据又容易被outlier带偏,所以还是需要用历史数据点来修正预测。ARIMA的理论体系虽然和ETS完全不同,出发点却很相似。
ARIMA的全称是Autoregressive Integrated Moving Average。拆开来看,Autoregressive是个自动回归模型,通常仅用p个近期观测值而不是所有观测点,否则作参数估计会是个噩梦。AR这一块,和ETS中指数权重异曲同工,只是不那么精致美用上所有点而已。Integrated比较好理解,假如存在趋势之类,自动回归不足以捕捉到,而需要做差分。
Moving Average可能是最难理解的部分。首先它很容易和移动平均混淆,但这里完全是另一个概念。这里的moving average是一个q阶的自动回归模型,只是回归的对象是预测误差而非实际观测值。那么既然已经有了autoregressive model (AR),为何还需要MA?这个需要用实例来理解。有个叫Dimitriy V. Masterov的好人给了个很好的例子。在美帝(以及天朝)很多市场营销活动会发出去很多优惠券打折券啥的,这些外部噪声会影响到销售量。MA的自动回归就是用来