ARIMA模型适用于非平稳时间序列数据,其中的I表示差分的次数,适当的差分可使原序列成为平稳序列后,再进行ARIMA模型的建模。
其建模步骤与ARMA模型类似,分为5个步骤:
- 平稳: 通过差分的手段,对非平稳时间序列数据进行平稳操作。
- 定阶: 确定ARIMA模型的阶数p, q。
- 估计: 估计未知参数。
- 检验: 检验残差是否是白噪声过程。
- 预测: 利用模型预测。
对应的,在商业领域,时间序列预测应遵循如下建模流程。
步骤1: 这是必需的,如果不看时间序列的图形,就不能确定是否有季节性。可能有人认为,既然SARIMAX函数的功能可以涵盖ARIMA函数,那就可以统一使用SARIMAX函数遍历所有参数得到最优模型。但是这样做是不可取的,因为SARIMAX函数的参数过多,模型的估计结果不稳定,因此如果数据没有季节行,应尽量选择ARIMA函数进行估计。
步骤2: 参数选取范围在(0,1,2)中即可,很少有参数超过2的情况,即使真的超过2,第3阶的信息也很少,可以忽略。实在有问题,还可以在步骤4中通过观看参差的情况判断是否扩大搜索空间。选取最优模型的依据为AIC或BIC统计量。AIC统计量选取的模型较大,即模型参数较多;BIC统计量选取的模型较小,即模型参数较少。不过绝大部分情况下两个统计量得到的模型是一样的。
步骤3: 使用上一步得到的最优模型进行重新模型估计。模型估计好,可以查看模型的参数。本步骤并没有进行时间序列的平稳性校验,这有两个考虑: 一是平稳性检验的方法众多,statsmodels中提供的adfulle函数其实是聊胜于无,用户不大;二是目前统计学界提供的平稳型检验方法的势(power)都不高,也就是说检验结果不那么有用处。实际上相关系数为0.9以上的AR(1)和ARIMA(0, 1, 0)是不能通过平稳型校验区分开的。因此索性不做平稳型检验,仅依靠AIC或BIC统计量来判断最优模型即可。
步骤4: 该步骤目的是确认模型正确性。如果参差序列的前几阶(比如5阶)自相关,偏自相关函数没有显著的,则说明已经是最优模型。统计学参考书中会使用DW检验(德宾-沃尔森检验),Q-Q检验,Q检验,其实和查看自相关函数区别不大。
步骤5: 本步骤中,如果之前数据取了自然对数,则在使用模型预测后,要对数据取自然指数。