时间序列分析
基本概念:时间序列也称动态序列,是指将某种现象的指标数值按照时间顺序排列而成的数值序列。时间序列分析大致可分成三大部分,分别是描述过去、分析规律和预测未来,本讲将主要介绍时间序列分析中常用的三种模型:季节分解、指数平滑方法和ARIMA模型,并将结合spss软件对时间序列数据进行建模。
组成要素:1、时间要素;2、数值要素;
时间序列数据:对同一对象在不同时间连续观察所取得的数据。
时间序列分类:
1、时期时间序列
数值要素反映现象在一定时期内发展的结果。
2、时点时间序列
数值要素反映现象在一定时点上的瞬间水平。
注:根据时间和数值性质的不同
时期和时点时间序列区别:时期序列可加,时点序列不可加。
时期序列中的观测值反映现象在一段时期内发展过程的总量,不同时期的观测值可以相加,相加结果表明现象在更长一段时间内的活动总量; 而时点序列中的观测值反映现象在某一瞬间上所达到的水平,不同时期的观测值不能相加,相加结果没有实际意义。
时间序列的数值变化规律:
长期变动趋势、季节变动规律、周期变动规律、不规则变动(随机扰动项)
注1:一个时间序列往往是以上四类变化形式的叠加。
注2:以上四种变动就是时间序列数值变化的分解结果。有时这些变动会同时出现在一个时间序列里面,有时也可能只出现一种或几种,这是由引起各种变动的影响因素决定的。正是由于变动组合的不确定性,时间序列的数值变化才那么千变万化。四种变动与指标数值最终变动的关系可能是叠加关系,也可能是乘积关系。
长期趋势:T:
长期趋势(Secular trend,T)指的是统计指标在相当长的一段时间内,受到长期趋势影响因素的影响,表现出持续上升或持续下降的趋势,通常用字母T表示。例如,随着国家经济的发展,人均收入将逐渐提升;随着医学水平的提高,新生儿死亡率在不断下降。
季节趋势:S:
季节趋势(Seasonal Variation,S)是指由于季节的转变使得指标数值发生周期性变动。这里的季节是广义的,一般以月、季、周为时间单位,不能以年作单位。例如雪糕和棉衣的销量都会随着季节气温的变化而周期变化;每年的长假(五一、十一、春节)都会引起出行人数的大量增加。
循环变动:C:
循环变动(Cyclical Variation,C)与季节变动的周期不同,循环变动通常以若干年为周期,在曲线图上表现为波浪式的周期变动。这种周期变动的特征表现为增加和减少交替出现,但是并不具严格规则的周期性连续变动。最典型的周期案例就是市场经济的商业周期和的整个国家的经济周期。
不规则变动:I:
不规则变动(Irregular Variation,I)是由某些随机因素导致的数值变化,这些因素的作用是不可预知和没有规律性的,可以视为由于众多偶然因素对时间序列造成的影响(在回归中又被称为扰动项)。
叠加模型和乘积模型:
(1)如果四种变动之间是相互独立的关系,那么叠加模型可以表示为:
Y=T+S+C+I
(2)如果四种变动之间存在相互影响关系,那么应该使用乘积模型:
Y=TSC*I
Y:指标数值的最终变动;
T:长期趋势变动;
S:季节变动;
C:循环变动;
I:不规则变动;
注1:数据具有周期性时才能使用时间序列分解,例如数据是月份数据(周期为12)、季度数据(周期为4) ,如果是年份数据则不行。
注2:在具体的时间序列图上,如果随着时间的推移,序列的季节波动变得越来越大,则反映各种变动之间的关系发生变化,建议使用乘积模型;反之,如果时间序列图的波动保持恒定,则可以直接使用叠加模型;当然,如果不存在季节波动,则两种分解均可以。
spss处理时间序列中的缺失值:
1、缺失值发生在时间序列的开头或者尾部,可采用直接删除的方法;
2、缺失值发生在序列的中间位置,则不能删除(删除后原有的时间序列会错位),可采用替换缺失值的方法。
替换缺失值的五种方法:
1、序列平均值:用整个序列的平均数代替缺失值;
2、临近点的平均值:用相邻若干个点的平均数来替换缺失值(默认为两个点);
3、临近点的中位数:用相邻若干个点的中位数来替换缺失值(默认为两个点);
4、线性插值:用相邻两个点的平均数来替换缺失值;
5、邻近点的线性趋势:将时期数作为x,时间序列值作为y进行回归,求缺失点的预测值;
spss软件定义时间变量:
时间序列图:
季节性分解:
结果解读:
画出分解后的时序图:
时间序列分析:
包含:
1、描述过去:描述时间序列的动态变化;
2、分析规律:揭示时间序列数值变化背后的规律;
3、预测未来:依据数值变化规律预测未来数值趋势;
具体步骤:
1、作时间序列图;
2、 判断时间序列包含的变动成分;
3、时间序列分解(有周期性且包含长期趋势、季节变动或循环变动);
4、建立时间序列分析模型;
5、预测未来的指标数值。
建立时间序列分析模型:
spss官方文档的“翻译”:
(1)给我一个时间序列,我就能自动帮你找到适合的拟合模型;
(2)我提供模型有两类,一类是指数平滑模型,另外一类是ARIMA模型;
(3)我可以识别你数据中的异常值,当然需要你来手动指定。
指数平滑模型类型及简介:
simple模型:
平滑系数𝛼的选取原则:
1、如果时间序列具有不规则的起伏变化,但长期趋势接近一个稳定常数,α值一般较小(取0.05‐0.02之间)
2、如果时间序列具有迅速明显的变化倾向,则α应该取较大值(取0.3‐0.5)
3、如果时间序列变化缓慢,亦应选较小的值(一般在0.1‐0.4之间)
实际上,spss的专家建模如果选择了simple模型用来估计,那么软件会帮我们自动选取一个适合的平滑系数使得预测误差最小。
注:只能预测一期,这是由我们的公式所决定的。(x(t+1)=α*x(t)+(1-α)*x(t))
线性趋势模型(linear trend):
阻尼趋势模型(Damped trend):
简单季节性(Simple seasonal):
温特加法模型(Winters’ additive):
温特乘法模型(Winters’ multiplicative):
一元时间序列分析的模型:
- 平稳时间序列和白噪声序列
- 差分方程和滞后算子
- AR模型
- MA模型
- ARMA模型
- ACF和PACF
- ARMA模型的估计
- AIC和BIC准则
- ARIMA模型
- SARIMA模型
时间序列的平稳性(stationary series):
差分方程:将某个时间序列变量表示为该变量的滞后项、时间和其他变量的函数,这样的一个函数方程被称为差分方程。
差分方程的特征方程:
差分方程的齐次部分:只包含该变量自身和它的滞后项的式子。
滞后算子:
AR§模型(auto regressive):
平稳条件:
MA(q)模型(moving average):
MA(q)模型的平稳性:
只要q是常数,那么MA(q)模型一定是平稳的。
MA模型和AR模型的关系:
我们可以将1阶移动平均模型转换为无穷阶的自回归模型,这一性质称为移动平均模型的可逆性;类似的,我们在某些条件下(可逆性条件)也可以将MA(q)模型也转换为无穷阶的自回归过程。
一般地,任何经济变量的时间序列都可以自回归过程来描述。但在模型分析的实践中,为简化估计参数的工作量,我们当然希望模型当中的参数尽可能地少。于是便有了引进移动平均过程MA(q)的必要。
ARMA(p,q)模型:
自回归移动平均模型(Autoregressive Moving Average,ARMA),就是设法将自回归过程AR和移动平均过程MA结合起来,共同模拟产生既有时间序列样本数据的那个随机过程的模型。
ARMA(p,q)模型的平稳性:
一般,我们可以通过观察时序图来判断时间序列是否平稳,当然,也有相应的假设检验方法能帮助我们对数据的平稳性进行检验(由于第三种情况几乎不会发生,因此我们只需要检验时间序列是单位根还是平稳的即可)。例如:Augmented Dickey‐Fuller单位根检验(ADF 检验)、KPSS检验、PP检验。
ACF自相关系数:
PACF偏自相关函数
AR(1)模型(系数符号相反): ACF逐渐衰减,即拖尾;PACF一阶后截尾;
MA(1)模型: ACF一阶后截尾;PACF逐渐衰减,即拖尾;
AR(2)模型: ACF逐渐衰减,即拖尾;PACF二阶后截尾;
ARMA(1,1)模型: ACF和PACF均拖尾;
模型选择:AIC和BIC准则(选小原则):
过拟合问题:加入的参数个数越多,模型拟合的效果越好,但这却是以提高模型复杂度
为代价的。因此,模型选择要在模型复杂度与模型对数据的解释能力之间寻求最佳平衡。
赤池信息准则(Akaike Information Criterion,AIC):
日本统计学家赤池弘次在1974年提出
𝑨𝑰𝑪 =𝟐(模型中参数的个数)- 𝟐𝒍𝒏(模型的极大似然函数值)
贝叶斯信息准则(Bayesian Information Criterion,BIC):
由Schwartz在1978年根据贝叶斯理论提出
𝑩𝑰𝑪 =𝒍𝒏 (𝑻)(模型中参数的个数)- 𝟐𝒍𝒏 (模型的极大似然函数值)
样本个数用T表示
模型中参数的个数n:反映模型的复杂程度;
模型的极大似然函数值:反映模型对于数据解释(拟合)程度。
注:AIC和BIC是选小原则,我们要选择使得AIC或BIC最小的模型。(BIC对于模型的复杂程度的惩罚系数更大,因此BIC往往比AIC选择的模型更简洁)
检验模型是否识别完全:
估计完成时间序列模型后,我们需要对残差进行白噪声检验,如果残差是白噪声,则说明我们选取的模型能完全识别出时间序列数据的规律,即模型可接受;如果残差不是白噪声,则说明还有部分信息没有被模型所识别,我们需要修正模型来识别这一部分的信息。
Ljung and Box 在1978年提出的Q检验能帮助我们检验残差是否为白噪声:
ARIMA(p,d,q)模型:
SARIMA(Seasonal ARIMA)模型:
到目前为止,我们只关注非季节性数据和非季节性ARIMA模型。然而,ARIMA模型也能够对广泛的季节数据进行建模。
季节性ARIMA模型是通过在ARIMA模型中包含额外的季节性项而生成的,其形式如下:
自动检测异常值的方法:
操作步骤:
注1:预测值和拟合值是不相同的,预测值是将样本外年份的数据带入模型计算得到的,而拟合值是将样本的年份重新带入模型计算得到的。
注2:这里保留残差的ACF和PACF图形可以帮助我们判断残差是否为白噪声,即该时间序列是否能被模型识别完全。
常用的评价指标:
注1:一般比较两个模型的好坏,我们可以使用平稳的R方(文档上翻译成了固定的R方)或者标准化BIC(BIC准则),这两个指标既考虑了拟合的好坏,又考虑了模型的复杂度;
注2:R方可用来反映线性模型拟合的好坏,越接近于1拟合的越准确。