时间序列的截尾和拖尾_时间序列中p,d,q的确定

97a83d2b73ec5b3b51b4f6cac10b5769.png

最近做了一个公众号粉丝数量增长预测,用到了ARIMA模型,本科虽然学过但始终是止于皮毛,很多东西并没有真正理解,借此机会也重新学习了一遍。

时间序列其实就是按照时间的顺序把随机事件变化发展过程记录下来,并对它进行观察、研究,寻找变化发展的规律,预测它将来的走势。所以说,ARMA模型就是拿来预测。而ARIMA模型与ARMA模型唯一的区别就在时间序列是否平稳,如果不平稳,则需要做一、二三或者更多阶差分,直到序列平稳,这个差分的阶数就是ARIMA模型中的d的值。

一来就说平稳,那就说到我们的第一个要点,时间序列的平稳性。

平稳的判定其实非常简单,概念都不用说,就是你做出来的时序图是否在一个确定的值上下波动。当然,我们还可以进一步根据自相关图与偏自相关图来判断序列是否平稳。

1b4e086f8f443ef323b0c213a23db9cb.png
比如这就不是一个平稳的时间序列,它有明显的上升趋势

993e6f409be997086d7a1d5ba252c4c5.png
而这个时序图即使它在波动,但都在0的上下波动,可以认为是平稳时间序列

还是严肃的说说平稳性。。平稳分为严平稳和宽平稳,就像给定的名字一样,严平稳的是一种条件很严格的平稳性定义,是所有统计性质都不会随着时间的推移而变化的;宽平稳的条件就比较宽松了,只要保证序列低阶矩平稳。为什么一开始必须要判断时间序列的平稳性?因为预测时间序列的首要前提就是时间序列是平稳的!!它必须是平稳的,不是平稳的你也得把它差分成平稳的,不然这种预测是无效的。肯定有好奇宝宝要问为什么必须是平稳的才能做ARMA模型,下面大概介绍一下,如果不需要了解你可以跳过。

时间序列分析方法是利用样本信息来推测总体信息。根据统计学常识,肯定是分析的随机变量越少越好,而通过每个变量获得的样本信息越多越好。但是时间序列分析的数据结构有它的特殊性,对随机序列而言,在任意时刻t的序列值Xt都是一个随机变量,而且由于时间的不可重复性,该变量在任意时刻只能获得唯一的样本观测值。所以在样本信息较少的情况下,是无法获得其他辅助信息的,如果序列平稳则可以有效解决这个问题。

先明确一下,序列平稳有两个重要的性质。1、序列的均值为常数。2、自协方差函数和自相关函数仅与时间平移长度有关而与时间的起止点无关。基于两条性质,均值常数意味着原本含有可列多个随机变量的均值序列变成了一个常数序列,原本每个随机变量的均值只能依靠唯一的一个样本观测值去估计,现在每一个样本观测值Xt都变成了常数均值的样本观测值。这极大减少了随机变量的个数并增加了待估计参数的样本容量。同理,根据平稳序列二阶矩平稳的性质,可以得到基于全体观察样本计算出的延迟k自协方差函数的估计值,并进一步推导出总体方差的估计值和延迟k自相关系数的估计值。这样我们就明白了只有平稳序列才能推出我们想要的东西(自相关系数和偏自相关系数的估计值),所以说不是平稳就不能做时间序列的预测

确定了序列平稳之后,就开始做自相关图(ACF)和偏自相关图(PACF),可以利用多种软件来实现。R语言,SPSS,Eviews等。我一般会选择用R。在ACF和PACF图作出来之后就要开始涉及p,q的确定了,通常我们都这样来判断

f67f0ce2b98f5b7d474b3885aa4e929c.png

看起来总是很简单,但实际上,我们很难判定拖尾和截尾啊!!每次看到这两个图满脑子都是问题,怎样才能算截尾了?这怎么又像截尾又像拖尾?它在哪个范围才是截尾?一脸懵逼,感觉简直书上123,实际¥%#@。

其实这个定阶原则本来就是很困难的,实际上并不会呈现出理论截尾的完美情况,本应截尾的仍然会出现小值振荡。所以并没有绝对的标准,很大程度上是依靠分析人员的主观经验,但样本自相关系数与偏自相关系数的近似分布可以帮助缺乏经验的分析人员作出尽量合理的判断。

我们在判断时常用的观察方法是,如果样本自相关系数或偏自相关系数在最初的d阶明显超过2倍标准差范围,而后几乎95%的自相关系数都落在2倍标准差的范围以内,而且由非零自相关系数衰减为小值波动的过程非常突然(也就是衰减速度非常快),这时,通常视为自相关系数截尾。如果有超过5%的样本自相关系数落在2倍标准差之外,或者由显著非零的自相关系数衰减为小值波动的过程比较缓慢或者非常连续(也就是衰减速度较慢),这时,通常认为自相关系数不截尾。不知道会不会有人想问,为什么是以2倍标准差的范围来判断。如果好奇可以看下图。

01c874d379f8b586a637eac6b210dd6f.png

接下来举个栗子来说拖尾和截尾

3280388b381c15f41a23be0567dec269.png

可以看出这个自相关图除了1阶(注意这个图不是看有几根线超过了2倍标准差p就等于几,你没发现第一根对下来的是0阶吗)自相关系数在2倍标准差范围之外,其他阶数都在范围之内。

cae7ada8ae724ba25cd54e1e8678caac.png

这个偏自相关图可能一开始作出来就是比较懵逼,不知道怎么判断。你觉得它截尾不明显,后面阶数的偏自相关系数也没在0上下波动,其实这就是拖尾。所以利用上表提到的确定模型的方法,自相关系数1阶截尾,偏自相关系数拖尾,为拟合模型定阶为MA(1)。其他模型的判断也是这样,只要判断出自相关和偏自相关是拖尾或者截尾,就能确定拟合模型了。

如果想要更准确的模型,对自己的判断不自信,可以利用R语言中的auto.arima函数进行自动定阶,再结合自己的判断,选定几个不同的p,q,比如ARIMA(2,2,1),ARIMA(2,2,2)等,然后利用AIC准则和BIC准则(前提是每个模型都要通过模型的显著性检验和参数的显著性检验),最后确定最优模型。要预测接下来几期的值就直接用函数forecast()。

  • 6
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值