Time Series: Autoregressive models AR, MA, ARMA, ARIMA
Mingda Zhang University of Pittsburgh mzhang@cs.pitt.edu
时域vs频域
This lecture will focus on univariate, linear, discrete time series.
白噪声
高斯白噪声
白噪声时间序列是一个非常有趣的问题,因为如果所有时间序列的随机行为都能用白噪声模型来解释,那么经典的统计方法就足够了。
随机游走
随机漫步是指随机移动的物体离开它们开始的地方的过程。
时间序列分析
利用已知数据值拟合具有合适模型的时间序列并估计相应参数的过程。它包括试图了解时间序列性质的方法,通常对未来的预测和模拟有用。
有几种方法可以建立时间序列预测模型,但这节课的重点是随机过程。
。。。(有些废话)
自协方差函数
自协方差测量的是两个点在不同时间观测到的同一序列上的线性关系。
非常平滑的序列:即使t和s相距很远,自协方差函数也会保持较大,而起伏的序列:当距离较大时,自协方差函数几乎为零。
自相关函数Autocorrelation Function (ACF)
预测是困难的,因为时间序列本质上是不确定的,也就是说我们不能肯定地预测未来会发生什么。但如果时间序列是平稳的,问题可能会简单一些:你只需预测它的统计特性在未来将与过去相同。
平稳时间序列是指其统计特性,如均值、方差、自相关等都随时间保持不变。
大多数统计预测方法都是基于时间序列经过数学变换后近似平稳的假设。
严平稳
宽/弱平稳
通常平稳一词指的是宽平稳,当人们想强调一个过程严格意义上的平稳时,他们会使用严平稳。
严格的平稳性并不假设有限的方差,因此严格的平稳并不一定意味着弱平稳。如iid柯西过程严平稳,但不是弱平稳。 严平稳时间序列的非线性函数仍然是严平稳的,但对于弱平稳则不成立。弱平稳性通常并不意味着严格的平稳性,因为过程的高阶矩可能依赖于时间t。
平稳时间序列的自相关
偏自相关Partial Autocorrelation Function (PACF)
另一个重要的度量是偏自相关,即去掉中间所有东西的线性效应后,Xs和Xt之间的相关。
ARIMA Models
ARIMA是一个缩写词,代表差分自回归移动平均模型。
AR自回归。利用一个观测值和一些滞后观测值之间的依赖关系的模型。
I整合。利用原始观测值的差分使时间序列保持平稳。
MA移动平均线。一种模型,利用观测值与应用于滞后观测的移动平均模型的残差之间的相关性。
这些组件中的每一个都在模型中作为参数显式指定。注意,AR和MA是两种广泛使用的线性模型,它们都适用于平稳时间序列,而I是一个预处理程序,用于在需要时使时间序列平稳。
使用ARIMA(p, d, q)的标准表示法,将参数替换为整数值,以快速指示所使用的特定ARIMA模型:
p模型中包含的滞后观测次数,也称为滞后阶数。
d原始观测值被差分的次数,也称为差分程度。
q移动平均窗口的大小,也叫移动平均阶。
可以将值0用于参数,该参数指示不使用该子模型。换句话说,ARIMA模型可以配置为执行ARMA模型的功能,甚至是简单的AR、I或MA模型。
Autoregressive Models:AR(p)
AR Example: AR(0) and AR(1)
AR Problem: Explosive AR Process
我们用因果关系的概念来描述时间序列,它不仅是平稳的,而且不依赖于未来。
General AR(p) Process
事实上,识别AR模型通常最好使用PACF。
AR Models: Parameters Estimation参数估计
注意,p类似于AR(p)过程的超参数,因此拟合AR(p)模型假设p已知,并且只关注估计系数Φ1,...Φp
这有许多可行方法:矩估计法(如Yule-Walker估计法)、最大似然估计法(MLE)、普通最小二乘估计法(OLS)
如果观测到的序列很短或过程很不平稳,那么各种方法的参数估计将有很大的差异。
Moving Average Models (MA)
这个名字可能会误导人,但移动平均模型不应该与移动平均平滑相混淆。
Motivation:AR模型的一个问题是在时间序列中忽略了相关的噪声结构(这是不可观测的)。
Definition:
虽然它看起来像一个回归模型,但不同之处在于wt是不可观测的。
与AR模型相反,有限MA模型总是平稳的,因为观测值只是过去预测误差的加权移动平均。
Moving Average Operator
一般而言MA(q)模型的一个重要属性:对the first q lags有非零自相关;对所有h > q,ρh = 0.换句话说,ACF提供了大量关于MA(q)过程依赖q阶数的信息。
MA模型的识别通常最好使用ACF而不是PACF。
MA Problem: Non-unique MA Process
传统上,我们定义了可逆性的概念,并且总是从多个选项中选择可逆性表示。
事实上,所有的因果AR(p)过程都可以表示为MA(∞);换句话说,无限移动平均过程是有限的自回归过程。所有可逆MA(q)过程都可以表示为AR(∞)。即有限移动平均过程是无限自回归过程。
MA Models: Parameters Estimation参数估计
MA模型的参数估计比AR模型更难。一个原因是滞后误差项是不可观测的。
我们仍然可以用矩量估计法对MA过程进行估计,但不能得到具有约尔-沃克方程的最优估计。
事实上,由于MA过程的参数是非线性的,我们需要迭代非线性拟合而不是线性最小二乘。从实用的角度来看,现代科学计算软件包在给出正确配置之后将处理大部分细节。
ARMA Models
自回归模型和移动平均模型可以结合起来形成ARMA模型。
ARMA Problems: Redundant冗长 Parameters
如果我们没意识到参数冗余,我们可能会声称数据是相关的,而实际上它们不是。
Choosing Model Specification
我们讨论过ACF和PACF可用于ARIMA模型超参数p和q的测定。
选择q和q也可以使用其他标准,如AIC (Akaike信息准则)、AICc(更正AIC)和BIC(贝叶斯信息准则)。注意,p和q的选择并不惟一。
“Stationarize” Nonstationary Time Series
ARMA模型的一个限制是平稳性条件。在许多情况下,时间序列可以被认为是由两个组成部分,一个非平稳趋势序列和一个零均值平稳序列
在趋势消除方面,差分法优于去趋势法的一个优点是不需要参数估计。
事实上,差分运算是可以重复的。第一个差分消除了线性趋势。第二个差分可以消除二次趋势。
Detrending vs. Differencing
From ARMA to ARIMA
Box-Jenkins Methods
我们已经看到ARIMA模型有许多参数和超参数,Box和Jenkins提出了一种迭代的三阶段方法来估计ARIMA模型。
Procedures
1模型识别:检查平稳性和季节性,必要时进行差分,选择模型规格ARIMA(p, d, q)。
2参数估计:使用最大似然估计或非线性最小二乘估计计算最适合所选ARIMA模型的系数。
3模型检验:检验得到的模型是否符合平稳单变量过程的规范(即残差相互独立,均值和方差恒定)。如果失败,回到步骤1。
实例
Air Passenger Data
Model Identification
与任何数据分析一样,我们应该构造数据的时间图,并检查图中是否有异常。这个阶段最重要的事情是确定时间序列是否平稳,以及是否有任何需要处理的重要季节性。、
Test Stationarity
回想一下定义,如果均值或方差随时间变化,那么它是非平稳的,因此一种直观方法是绘制滚动统计数据。我们也可以做一个自相关图,因为非平稳时间序列通常显示非常缓慢的衰减。
一种完善的统计测试——增广的迪基-富勒测试(augmented Dickey-Fuller test)——可能会有所帮助。零假设是时间序列非平稳。
测试统计量是一个负数。负的越多,零假设的拒绝就越强。
Stationarize Time Series
由于以往的方法都表明初始时间序列是非平稳的,因此在ARMA建模中需要对初始时间序列进行变换使其平稳。
从ACF图中我们可以看出,平均值和std随时间的变化要小得多。同时,ADF检验统计量小于10%的临界值(???),说明时间序列是平稳的,有90%的置信度。(???)
Choosing Model Specification
RSS是对数据和估计模型之间的差异的度量。RSS小表示模型与数据紧密匹配。
在这里,我们可以看到AR(2)和MA(2)模型具有几乎相同的RSS,但是组合起来要好得多。
Forecasting
最后一步是反转我们已经完成的转换,以得到原始规模上的预测。
SARIMA: Seasonal ARIMA Models
在以前的模型中,一个问题是缺乏季节性,这可以在ARIMA模型的一个广义版本(季节性ARIMA)中得到解决。
模型的季节部分由与非季节成分相似的项组成,但涉及季节周期的后移。