时间序列预测

时间序列预测

利用过往某段时间的历史数据对其后某段时间内的数据进行预测,例如通过对以往3个月内的菜品销售数据,预测未来7天菜品的销售量,以减少菜品脱销或备货不足。
如下图,1991年3月-7月的销量数据,预测其后5天的销量:在这里插入图片描述
常用按时间序列排列的一组随机变量 X1,X2,…,Xt 来表示一个随机事件序列,记为 Xt ;用 x1,x2,…,xn{xt,t=1,2,…,n} 表示该随机序列的 n 个有序观察值,称之为序列长度为 n 的观察值。
用于时间序列预测的数据必须是平稳非白噪声序列,即均值和方差是常数,序列具有短期相关性。简单的说,就是数据在某个值附近上下波动,某一时间的数据受它前面短期内数据的影响较大,如今年的数据受去年数据的影响较大,而受前3年的影响不大。

如果原数据不平稳,需要对数据进行处理,使之变成平稳数据,如差分、取对数,预测结果再还原,就得到最终的预测值。

时间序列与常见的回归问题的不同点在于:

1、时间序列是跟时间有关的,而线性回归模型中观察结果是独立的;
2、随着上升或者下降的趋势,更多的时间序列出现季节性趋势的形式。

1、 时间序列模型

常用的时间序列模型有AR模型(Autoregressive model,自回归模型)、MA模型(moving average model,滑动平均模型)、ARMA模型(Auto-Regressive and Moving Average Model,自回归滑动平均模型)和ARIMA模型(Autoregressive Integrated Moving Average Model,自回归积分滑动平均模型)等。
时间序列分析大致步骤如下:
在这里插入图片描述

1.1、时间序列的预处理

拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列会采用不同的分析方法。

1.1.1、平稳性检验

对序列的平稳性检验有两种方法,一种是图检验:根据时序图和自相关图的特征做出判断,该方法操作简单、应用广泛,缺点是带有主观性;另一种是构造检验统计量进行检验,目前最常用的方法是单位根检验
(1)时序图检验
根据平稳时间序列的均值和方差都为常数的性质,平稳序列的时序图显示该序列值始终在一个常数附近随机波动,而且波动的范围有界;如果有明显的趋势性或周期性,那它通常不是平稳序列。
1)平稳序列:
在这里插入图片描述
2)非平稳序列图:
在这里插入图片描述
上图有向上发展的趋势,具有长期相关性。

在这里插入图片描述
上图具有周期性,非平稳序列。

(2)自相关图检验
平稳序列具有短期相关性,这个性质表明对平稳序列而言通常只有近期的序列对现时值的影响比较明显,间隔越远的过去值对现时值的影响越小。随着延迟期数 k 的增加,平稳序列的自相关系数 ρk (延迟 k 期),会比较快的衰减趋向于零,并在零附近随机波动,而非平稳序列的自相关系数衰减的速度比较慢,这就是利用自相关图进行平稳性检验的标准。
1)平稳时间序列的自相关图:
在这里插入图片描述
2)非平稳时间序列的自相关图:
在这里插入图片描述
上图显示序列具有长期相关性;
在这里插入图片描述
上图显示序列具有周期性;

(3)单位根检验
当一个自回归过程中:yt=b*yt-1+α+εt ,如果滞后项系数 b 为1,就称为单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会随着样本量(即时期数)增大而衰减,也就是说模型中的残差的影响是永久的。这种回归又称作伪回归。如果单位根存在,这个过程就是一个随机漫步(random walk)。
单位根检验是指检验序列中是否存在单位根,如果存在单位根就是非平稳时间序列。ADF检验的 H0 原假设就是存在单位根,如果得到的显著性检验统计量ADF(Test Statistic)小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设。

1.1.2、纯随机性进行检验

如果一个序列是纯随机序列,那么它的序列值之间应该没用任何关系,即满足 γkk≠0,这是一种理论上才会出现的理想状态,实际上纯随机序列的样本自相关系数不会绝对为零,但是很接近零,并在零附近随机波动。

纯随机性检验也称白噪声检验,一般是构造检验统计量来检验序列的纯随机性,常用的检验统计量有Q统计量、LB统计量,由样本各延迟期数的自相关系数可以计算得到检验统计量,然后计算出对应的值 p,如果 p 值显著大于显著性水平 α,则表示该序列不能拒绝纯随机的原假设,可以停止对该序列的分析。

1.1.3、截尾和拖尾

在观察自相关系数图和偏自相关系数图时,会出现截尾和拖尾现象,如图:
在这里插入图片描述
平稳时间序列会出现截尾或拖尾现象。
出现以下情况,通常视为(偏)自相关系数 p 阶截尾:
1)在最初的 p 阶明显大于 2 倍标准差范围;
2)之后几乎95%的(偏)自相关系数都落在 2 倍标准差范围以内;
3)且由非零自相关系数衰减为在零附近小值波动的过程非常突然。
出现以下情况,通常视为(偏)自相关系数拖尾:
1)如果有超过5%的样本(偏)自相关系数都落入2倍标准差范围之外;
2)或者是由显著非0的(偏)自相关系数衰减为小值波动的过程比较缓慢或非常连续。

1.1.4 ACF和PACF

对于一个平稳AR(p)模型,求出滞后k期的自相关系数ρk时,实际上得到的并不是xtxt-k之间单纯的相关关系:
xt同时还会受到中间k-1个随机变量xt-1,xt-2,…,xt-k+1的影响,而这k-1个随机变量又都和xt-k具有相关关系,所以自相关系数ρk里实际掺杂了其他变量对xtxt-k的影响;
ACF包含了其他变量的影响,而偏自相关系数PACF是严格这两个变量之间的相关性;
偏自相关函数PACF描述的是在给定中间观测值的条件下,时间序列观测值预期过去的观测值之间的线性相关性。
如,假设k=3,即描述了xtxt-3之间的相关性,但是这个相关性还受到xt-1xt-2的影响。PACF剔除了这个影响,而ACF包含这个影响。

2、平稳时间序列分析

ARMA模型的全称是自回归移动平均模型,是目前最常用的拟合平稳序列的模型,可以细分为AR模型、MA模型和ARMA三大类,都可以看作是多元线性回归模型。

2.1、AR模型

具有如下结构的模型称为p阶自回归模型,简记为AR§。
xt=∅0+∅1xt-1+∅2xt-2+…+∅pxt-pt
即在t时刻的随机变量Xt的取值xt是前p期的多元线性回归,认为xt主要是受过去p期的序列值的影响。误差项是当期的随机干扰ε,为零均值白噪声序列。
平稳AR模型的性质如下:
在这里插入图片描述
(1)均值
对满足平稳性条件的AR§模型的方程,两边取期望,得:
E(xt)=E(∅0+∅1xt-1+∅2xt-2+…+∅pxt-pt)
已知E(xt)=μE(εt)=0,所以有μ=∅0+∅1μ+∅2μ+…+∅pμ,解得:
μ=∅0/(∅1+∅2+…+∅p)
(2)方差
平稳AR(p)模型的方差有界,等于常数。
(3)自相关系数(acf)
平稳AR§模型的自相关系数ρkt,t-k=cov(Xt,Xt-k)/(σtσt-k)呈指数的速度衰减,始终有非零取值,不会在k大于某个常数之后就恒等于零,这个性质就是平稳AR(p)模型的自相关系数ρk具有拖尾性。
(4)偏自相关系数(pacf)
对于一个平稳AR(p)模型,求出延迟k期自相关系数ρk时,实际上得到的并不是XtXt-k之间单纯的相关关系,因为Xt同时还会受到中间k-1个随机变量Xt-1,Xt-2,…,Xt-k的影响,所以自相关系数ρk里实际上掺杂了其他变量对XtXt-k的相关影响,为了单纯地测度Xt-kXt的影响,引进偏自相关系数的概念。
可以证明平稳AR(p)模型的偏自相关系数具有p阶截尾性。这个性质连同前面的自相关系数的拖尾性是AR(p)模型重要的识别依据。

2.2、MA模型

具有如下结构的模型称为q阶自回归模型,简记为MA(q)。
xt=μ+εt1εt-12εt-2+…+θqεt-q
即在t时刻的随机变量Xt的取值xt是前q期的随机扰动εt-1t-2,…,εt-q的多元线性函数,误差项是当期的随机干扰εk,为零均值白噪声序列,μ是序列{Xt}的均值。认为xt主要是受过去q期的误差项的影响。
平稳AR模型的性质如下:
在这里插入图片描述

2.3、ARMA模型

具有如下结构的模型称为自回归移动平均模型,简记为ARMA(p,q)。
xt=μ+∅1xt-1+∅2xt-2+…+∅pxt-pt1εt-12εt-2+…+θqεt-q
即在t时刻的随机变量Xt的取值xt是前pxt-1,xt-2,…,xt-p和前qεt-1t-2,…,εt-q的多元线性函数,误差项是当期的随机干扰εt-1,为零均值白噪声序列。认为xt主要是受过去p期的序列值和q期的误差项的共同影响。
特别的,当q=0时,是AR(p)模型;当q=0时,是MA(q)模型。
平稳ARMA(p,q)的性质如下:
在这里插入图片描述

2.4、平稳时间序列建模

1)时间序列预处理:平稳性和纯随机性检验;
2)计算平稳非白噪声序列的自相关系数ACF和偏自相关系数PACF;
3)ARMA模型识别,由AR(p)MA(q)ARMA(p,q)的ACF和PACF的性质,选择合适的模型。
在这里插入图片描述

4)估计模型中未知参数的值并进行参数检验;
4)模型检验;
5)模型优化;
6)模型应用:进行短期预测。

3、非平稳时间序列分析

实际应用中,绝大多数序列都是非平稳的,对非平稳时间序列的分析方法可以分为确定性因素的时序分析和随机时序分析两大类。
确定性因素分解的方法把所有序列的变化都归结为4个因素(长期趋势、季节变动、循环变动和随机波动)的综合影响,其中长期趋势和季节变动的规律信息通常比较容易提取,而由随机因素导致的波动则很难确定和分析,对随机信息浪费严重,会导致模型拟合精度不够理想。

3.1、差分运算

(1)p阶差分
相距一期的两个序列值之间的减法运算称为1阶差分运算。
(2)k步差分
相距k期的两个序列值之间的减法运算称为k步差分运算。

3.2、ARIMA模型

差分运算具有强大的确定性信息提取能力,许多非平稳序列差分后会显示出平稳序列的性质,这时称这个非平稳序列为差分平稳序列。对差分平稳序列可以使用ARMA模型进行拟合,ARIMA模型的实质就是差分运算与ARMA模型的组合。
差分平稳时间序列建模步骤如下图:
在这里插入图片描述
总结:
1)
AR模型AR(p):自相关系数拖尾+偏自相关系数p阶截尾,
xt=∅0+∅1xt-1+∅2xt-2+…+∅pxt-pt
2)
MA模型MA(q):自相关系数q阶截尾+偏自相关系数拖尾,
xt=μ+εt1εt-12εt-2+…+θqεt-q
3)
ARMA模型ARMA(p,q):自相关系数q阶拖尾+偏自相关系数p阶拖尾,
xt=μ+∅1xt-1+∅2xt-2+…+∅pxt-pt1εt-12εt-2+…+θqεt-q
4)ARIMA模型ARMA(p,d,q):差分自回归移动平均模型,d是差分阶数。

4、模型的识别

4.1、人为识别方法

通过观察自相关系数图和偏自相关系数图出现截尾和拖尾的情况,确定模型的选择。再根据自相关系数图或偏自相关系数图出现截尾对应的阶数,确定pq
如:
一阶差分后序列的自相关图:
一阶差分后序列的自相关图
一阶差分后序列的偏自相关图:
在这里插入图片描述
一阶差分后自相关图显示出1阶截尾,偏自相关图显示出拖尾性,所以可以考虑用MA(1)模型拟合1阶差分后的序列,即对原始序列建立ARIMA(0,1,1)模型。

4.2、相对最优模型识别

计算ARMA(p,q),当pq均小于等于3的所有组合的BIC信息量,取其中BIC信息量达到最小的模型阶数。
AIC准则存在一定的不足之处。当样本容量很大时,在AIC准则中拟合误差提供的信息就要受到样本容量的放大,而参数个数的惩罚因子却和样本容量没关系(一直是2),因此当样本容量很大时,使用AIC准则选择的模型不收敛与真实模型,它通常比真实模型所含的未知参数个数要多。BIC(Bayesian InformationCriterion)贝叶斯信息准则弥补了AIC的不足,

5、模型的检验

5.1、残差

5.2、参数检验和参数估计

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值