ARIMA模型

1、简介

ARIMA模型(Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型,时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是"自回归",p为自回归项数;MA为"滑动平均",q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。"差分"一词虽未出现在ARIMA的英文名称中,却是关键步骤。

2、模型原理

在描述ARIMA模型,那么就离不开AR、MA、ARMA模型,下面先阐述这两个模型。

2.1 AR模型(自回归)

自回归只适用于预测与自身前期相关的现象,数学模型表达式如下:

其中是当前值,是常数项,是阶数,是自相关系数,​​​​​是误差,同时

要符合正态分布。 

该模型反映了在t时刻的目标值值与前t-1~t-p个目标值之前存在着一个线性关系,即:

 2.2 MA模型(移动平均)

 移动平均模型关注的是自回归模型中的误差项的累加,数学模型表达式如下:

该模型反映了在t时刻的目标值值与前t-1~p个误差值之前存在着一个线性关系,即:

2.3 ARMA模型(自回归移动平均)

该模型描述的是自回归与移动平均的结合,具体数学模型如下:

2.4 ARIMA模型


基本原理:将数据通过差分转化为平稳数据,再将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。

AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数,一般做一阶差分,很少做二阶差分。

2.5 ACF和PACF


​​​ACF 是一个完整的自相关函数,可为我们提供具有滞后值的任何序列的自相关值。简单来说,它描述了该序列的当前值与其过去的值之间的相关程度。时间序列可以包含趋势,季节性,周期性和残差等成分。ACF在寻找相关性时会考虑所有这些成分
偏自相关函数PACF 只描述观测值和其滞后项之间的直接关系,调整了其他较短滞后项的影响。

2.6 AIC和BIC

AIC:赤池信息准则(AkaikeInformation Criterion,AIC)

其中k是模型参数个数,L是似然函数。从一组可供选择的模型中选择最佳模型时,通常选择AIC最小的模型
BIC:贝叶斯信息准则(Bayesian Information Criterion,BIC)

其中,k为模型参数个数,n为样本数量,L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下,可以有效避免出现维度灾难现象。BIC准则综合考虑了残差大小和自变量的个数,残差越小、自变量个数越少BIC值越小,模型越优

AIC和BIC是通过加入模型复杂度的惩罚项来避免过拟合问题,通常两者都倾向于选择参数更少的模型,BIC的惩罚项比AIC的大,考虑了样本数量,样本数量过多时,可有效防止模型精度过高造成的模型复杂度过高。但很多情况下,AIC最小的模型,不代表BIC也会最小。

一般采用穷举法确定参数p,q的值。因为一般阶数不超过整体数据的十分之一,因此分别从0~10取p、q,并且得到该模型的AIC和BIC值。

2.7 拖尾与截尾

截尾:在大于某个常数k后快速趋于0为k阶截尾

拖尾:始终有非零取值,不会在k大于某个常数后就恒等于零(或在0附近随机波动)

例子:

2.8 ARIMA模型运用流程

- (平稳性检验)根据时间序列的散点图、自相关系数和偏自相关系数、单位根检验(ADF),来判断数据的平稳性;

- (平稳化处理)如果不平稳,则对其进行差分运算直到差分后的数据平稳,得到差分阶数d;

- (白噪声检测)在数据平稳后则对其进行白噪声检验,白噪声是指零均值常方差的随机平稳序列;

- (模型识别和定阶)如果是平稳非白噪声序列就计算ACF(自相关系数)、PACF(偏自相关系数),进行ARMA等模型识别。平稳化处理后,若偏自相关函数是截尾的,而自相关函数是拖尾的,则建立AR模型;若偏自相关函数是拖尾的,而自相关函数是截尾的,则建立MA模型;若偏自相关函数和自相关函数均是拖尾的,则序列适合ARIMA模型。可以采用BIC准则对模型进行定阶,确定p,q参数,从而选择最优模型;

- (模型检验)检验已确定的模型其残差序列是否为白噪声,如果不是白噪声,说明残差中还存在有用的信息,需要修改模型或者进一步提取;

-(模型预测)对已识别好的模型,确定模型参数,最后应用预测并进行误差分析。

3.定阶(p,d,q)

3.1 定d

因为AR(自回归)建立必须具有平稳性,所以在建立ARIMA模型也需要平稳性,使数据平稳性的方法可以讲数据进行差分处理,如一阶差分即t与t-1的差值,二阶差分为一阶差分基础上再进行一次差分,使数据平稳后的差分次数即为我们要定的参数d

3.2 方法① 定p,q

  • 若PACF偏自相关函数在p阶段后截尾,则截尾的阶数即为模型所确定的参数p。
  • 若ACF自相关函数q阶段后截尾,则截尾的阶数即为模型所确定的参数q。

3.3 方法② 定p,q

采用AIC或BIC原则,模型中AIC或BIC值越小,模型就越好。

4.假设检验

下面介绍在用python实现ARIMA模型使用到的假设检验。

4.1单位根检验(ADF)

若单位根检验p值小于0.05则认为是平稳的。

4.2残差正态性检验

完成模型建立,需要对模型的残差进行正态性检验,python中scipy库中的stats类提供了一个 normaltest函数,用于检验数据是否符合正态性

4.3残差序列独立性检验

一个较好的ARIMA模型,残差序列之间是独立性的,检验德宾-沃森(Durbin-Watson)检验简称D-W检验,是目前检验自相关性最常用的方法,但它只适用于检验一阶自相关性。 先通过公式计算出DW值,再根据样本容量n和解释变量数目k查分布表,得到临界值dl和du,然后判断是否自相关,当DW值等于2左右时,模型不存在一阶自相关。
 

参考链接:

ARIMA(p,d,q)模型原理及其实现 --------python_arima python_English Chan的博客-CSDN博客

理论加实践,终于把时间序列预测ARIMA模型讲明白了_风度78的博客-CSDN博客

  • 22
    点赞
  • 159
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值