1. 时间序列建模与评估
在上面的基础模型介绍中,我们知道了许多模型,如ARIMA(p,d,q)模型,SARIMA(p,d,q)(P,D,Q)s模型,ARCH(q)和GARCH(p,q)模型等。接下来将要说明,在什么情况下使用他们,如何确定它们具体的参数,如何评估模型好坏等。
1.1 评估指标
我们先来介绍评估指标,因为有了评估指标,即使是使用最笨的穷举参数法,我们也可以确定最优参数是什么。
1.1.1 AIC和BIC准则(选小准则)
AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)都是用于模型选择和比较的统计准则,通常用于在多个统计模型之间选择最合适的模型。
AIC
中文名称为赤池信息准则,是衡量统计模型拟合优良性的一种标准,由日本统计学家赤池弘次创立和发展。AIC越小,模型越好,通常选择AIC最小的模型。具体计算公式为:
A
I
C
=
2
k
−
2
l
n
(
L
)
AIC=2k-2ln\left(L\right)
AIC=2k−2ln(L)
其中
L
L
L是模型的最大似然估计值(likelihood);
k
k
k是模型参数的数量,也称为自由度。
k k k小意味着模型简洁, L L L大意味着模型精确。因此在评价模型是兼顾了简洁性和精确性。
BIC
中文名称为贝叶斯信息准则,由Schwartz在1978年根据贝叶斯理论提出。BIC更强调对模型的惩罚,以鼓励选择更简单的模型。具体计算公式为:
B I C = l n ( n ) ∗ k − 2 l n ( L ) BIC=ln\left(n\right)\ast k-2ln\left(L\right) BIC=ln(n)∗k−2ln(L)
其中
L
L
L是模型的最大似然估计值(likelihood);
k
k
k是模型参数的数量,也称为自由度;
n
n
n 是数据点的数量。
因为考虑了样本数量,BIC的惩罚项比AIC的大,样本数量过多时,BIC选小准则可有效防止模型精度过高造成的模型复杂度过高。
选择取向
这两个准则都包含了最大似然估计值,这是模型与数据拟合质量的度量。但它们在对模型复杂度的惩罚上有所不同,AIC对模型复杂度的惩罚相对较轻,而BIC对模型复杂度的惩罚相对较重,因为它包含一个与数据点数量相关的项。因此,AIC更倾向于选择参数较多的模型,而BIC更倾向于选择参数较少的模型。
AIC和BIC都是选小原则,我们要选择使得AIC或BIC最小的模型。同时,AIC和BIC的原理是不同的,AIC是从预测角度,选择一个好的模型用来预测,BIC是从拟合角度,选择一个对现有数据拟合最好的模型。根据具体应用,我们可以两中结合,也可以单选其中一种。
1.1.2 残差检验
估计完成时间序列模型后,我们需要对残差进行白噪声检验,如果残差是白噪声,则说明我们选取的模型能完全识别出时间序列数据的规律,即模型可接受;如果残差不是白噪声,则说明还有部分信息没有被模型所识别,我们需要修正模型来识别这一部分的信息。具体检验可以参照我前面文章的白噪音分析。
时间序列探索性分析 http://t.csdnimg.cn/eNRg0
1.2 模型选择
1.2.1 ARIMA模型
因为ARIMA模型是ARMA模型的延伸,即当参数d为0时,ARIMA模型变为ARMA模型,所以适用于ARMA模型的情况,都可以使用ARIMA模型。
ARIMA模型适用于平稳的时间序列,对于不平稳序列可以使用差分进行预处理。当然也可以对不平稳序列使用,只是结果不好罢了。
1.2.2 SARIMA模型
SARIMA模型是ARIMA的扩展,专门用于季节性时间序列数据的分析和预测。其适用于具有明显季节性模式的时间序列数据,如季节性销售数据、季节性气温数据等。
因为SARIMA模型是ARIMA模型的延伸,即当SARIMA模型的P,D,Q,s参数都为0时,SARIMA模型变为ARIMA模型,所以只要认为有季节性变动的影响,就可以使用SARIMA模型。
1.2.3 ARCH模型和GARCH模型
只有在扰动项(残差)存在条件异方差时,才需要使用ARCH模型和GARCH模型。具体的异方差检验可以参照我前面文章的异方差检验。
时间序列探索性分析 http://t.csdnimg.cn/eNRg0
1.3 确定模型参数
下面将介绍如何确定每一个模型的参数。具体应用见我后续文章。
1.3.1 ARIMA(p,d,q)模型
ARIMA模型一般先确定参数d,即差分过程。可以对数据进行差分,直到数据变得稳定。
接着对差分序列使用偏自相关函数(PACF)图来确定p的范围。一般来说,偏自相关函数图在第p阶之后拖尾。
接着对差分序列使用来自相关函数(ACF)确定q的范围。一般来说,自相关函数图在第q阶之后截尾。
如果无法判断截尾还是拖尾,最常用的办法是,在ACF和PACF图中,寻找第一个截尾(截尾为零的滞后阶数)和显著性超出阈值的滞后阶数。这些滞后阶数可以用作p和q的估计。
最后使用网格搜索和AIC、BIC最小准则来选取最优参数。
1.3.2 SARIMA(p,d,q)(P,D,Q)s模型[5]
SARIMA模型一般先确定纯季节性参数s,即季节周期。可以通过时序图直接判断。
接着确定季节差分参数D,可以对数据进行季节差分,依次进行季节性检验,直到数据不再有季节性变动。
接着确定差分参数d,可以对数据进行差分,直到数据变得稳定。
接着对差分序列使用偏自相关函数(PACF)图来确定P的范围。一般来说,偏自相关函数图在第 P ∗ s P\ast s P∗s阶之后拖尾。
接着对差分序列使用来自相关函数(ACF)确定Q的范围。一般来说,自相关函数图在第 Q ∗ s Q\ast s Q∗s阶之后截尾。
参数p和q的范围同ARIMA模型。
最后使用网格搜索和AIC、BIC最小准则来选取最优参数。
1.3.3 ARCH( p )和GARCH(p,q)模型
ARCH( p )模型
方法一:获得残差序列后,对残差序列平方的自相关函数(ACF)图来确定p的范围,一般来说,偏自相关函数在第p阶之后截尾。
方法二:逐一提升参数p的值,然后判断残差是否仍有条件异方差效应。
最后使用网格搜索和AIC、BIC最小准则来选取最优参数
GARCH(p,q)模型
通常GARCH(1,1)就能满足要求,如果之后阶数过多会导致模型不稳定,一般滞后阶数取1-3比较合适。如果为了更好预测和拟合,会选择AIC BIC准则,取AIC或BIC最小。定阶后进行GARCH拟合,在进行LB检验和ARCH检验,检测残差是否符合假设的白噪声检验,一般保证滞后10阶的残差项接受检验,即p值大于0.1,然后才能说GARCH模型有效。
1.3.4 专家建模器
上述的方法仍然有很多的主观性和局限性,并且步骤繁杂,现在的计算软件已经发展了许多,可以通过软件自动确定,比如SPSS的专家建模器。
2.引用
时间序列笔记-季节性ARIMA模型(一)https://www.jianshu.com/p/413c094e46f6
请问GARCH模型的阶数p,q如何确定 - 爱问频道 - 经管之家(原人大经济论坛) https://bbs.pinggu.org/thread-1135328-1-1.html