目录
第1章 时间序列分析简介
1.1 时间序列的定义
时间序列:按时间顺序排列的一组随机变量,其对应的观察值序列为。
时间序列的目的:通过观察值序列的性质推断随机时间序列的性质。
1.2 时间序列分析方法
1.2.1 描述性时序分析
1.2.2 统计时序分析
一、频域分析法
原理:假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动
特点:非常有用的动态数据分析方法
局限:分析方法复杂,结果抽象
二、时域分析法
原理:事件的发展通常都具有一定的惯性,这种惯性用统计的语言来描述就是序列值之间存在着一定的相关关系,这种相关关系通常具有某种统计规律。
目的:寻找出序列值之间相关关系的统计规律,并拟合出适当的数学模型来描述这种规律,进而利用这个拟合模型预测序列未来的走势
特点:分析结果易于解释,是时间序列分析的主流方法
步骤:
第2章 时间序列的预处理
2.0 对预处理的理解
Q1: 预处理包含哪些工作?
A1: 包含平稳性、纯随机性检验。
平稳性检验:检验序列是否平稳,将序列分为平稳和不平稳两类;
纯随机性检验:检验序列是否存在相关信息。
Q2: 为什么要进行预处理?
A2: 因为需要将不同的时间序列分为不同类型,对不同类型的时间序列用不同的分析方法。进一步解释,不做预处理会出现下面这些问题:
(1)对非平稳数据通过经典的因果关系的回归模型进行分析可能会违背经典假定,这样一般不会得到有意义的结果,比如:伪回归现象;
(2)不存在相关性的序列没有研究价值,不能做预测应用。
Q3:预处理将时间序列分成了哪几类?
A:
2.1 平稳时间序列的定义
2.1.1 特征统计量
为了描述时间序列的平稳性,需要一下几个概念:概率分布、均值、方差、自协方差、自相关系数。
一、概率分布
概率分布的意义:随机变量族所有统计特性完全由它们的联合分布函数(或联合密度函数)决定。
时间序列概率分布族:时间序列的概率分布族定义为其所有有限维分布函数构成的全体,
二、均值
均值函数:反映了时间序列在时刻 t 的平均水平。
特点:均值和时间 t 有关系,因为每个时间点都是一 个随机变量。
三、方差
方差函数:反映了序列在时刻 t 偏离平均水平的程度。
特点:方差和时间 t 有关系,因为每个时间点都是一个随机变量。(横向波动)
四、自协方差
自协方差函数:反映了两个随机变量之间的相关性,如果自协方差>0,表示正相关,=0表示不相关,<0代表负相关;但是自协方差的具体数值不能反应变量间相关程度(与变量的量纲有关系)
特点:协方差和时间 t,s都有关系(纵向波动)
五、自相关系数
自相关系数函数:反映 了两个随机变量之间的线性相关性,如果自相关系数>0,表示正线性相关,=0表示不相关,<0代表负线性相关;自相关系数的具体数值可以反应变量间线性相关程度的(与变量的量纲没有关系)。
特点:自相关系数和时间 t,s都有关系,取值范围【-1,1】区间。
2.1.2 平稳时间序列的定义
一、严平稳
定义:只有当序列所有的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。
缺点:要想获得随机序列的联合分布式一件非常困难的事,所以严平稳时间序列只有理论意义
二、宽平稳
定义:序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。
三、严平稳与宽平稳的关系
宽平稳一般不是严平稳,严平稳也不一定是宽平稳的。
2.1.3 平稳时间序列的统计性质
Q: 多个时间序列建模要求每个序列平稳是因为伪回归。单一时间序列建模为什么要求平稳?
A:平稳性实际上是对不同时刻的序列值做了同分布的假定,所有均值、方差都一样。由于平稳性,每一个统计量都将拥有大量的样本观察值。这极大地减少了随机变量的个数,增加了待估变量的样本容量。极大地简化了时序分析的难度,同时也提高了对特征统计量的估计精度。
2.2 平稳性检验
对序列的平稳性有两种检验方法:(1)图检验法(时序图、自相关图);(2)统计检验法(单位根检验)。此处先介绍图检验法,单位根检验在后面的章节介绍。
2.2.1 时序图检验
2.2.2 自相关图检验
自相关图,以延迟时期数为横轴,自相关系数为纵轴,悬垂线表示自相关系数的大小,是一个二维平面坐标悬垂线图。基本原理:根据平稳序列通常具有短期相关性的特点,则随着延迟期数k的增加,平稳序列的自相关系数会很快地衰减为零,而非平稳序列的自相关系数较慢地衰减为零。(怎么定义很快地衰减呢?通常认为,上一 延迟长度样本自相关函数超过2倍标准误很多,下一个时刻直接落入2倍标准误之内)
对于非平稳时间序列,有一下两种很典型的情况:
(1)自相关图有三角对称性:序列非平稳,且具有明显单调性;
(2)自相关图有正弦或余弦状:序列非平稳,且具有周期性。
2.3 纯随机性检验
进行纯随机性检验的原因:只有那些序列值间有密切相关关系,历史数据对未来的发展有一定影响的序列(即非纯随机序列),才值得去挖掘历史数据中的有效信息,用来预测序列未来的发展。
2.3.1 纯随机序列的定义
描述性定义:序列值间没有任何相关性,过去的行为对将来的发展没有丝毫影响,这种序列称为纯随机序列,也称白噪声序列。
数学定义:如果时间序列满足如下性质:
(1)任取,有;
(2)任取,有
称序列为纯随机序列,也称白噪声序列。
特点:1. 白噪声序列一定是平稳序列,而且是最简单的平稳序列。
2.3.2 纯随机序列的性质
一、纯随机性
指白噪声序列各值之间没有任何相关关系,即为 “没有记忆”的序列。序列完全无序的随机波动,这时,自协方差和自相关系数为0,即
二、方差齐性
指白噪声序列中每个变量的方差都相等。
2.3.3 纯随机性检验
一、提出假设
二、检验统计量
1. Q统计量(Box 和 Pierce)
其中,n为观测期数,m为指定延迟期数.(注:适合大样本)
2. LB统计量(Box 和 Ljung)
其中,n为观测期数,m为指定延迟期数.(注:适合小样本且较为准确,更常用)
三、判别原则
Q:理论上讲对1000个观察时期,检验的延迟长度应该是m=1000-1=999,为何可以只通过短期延迟m=6和m=12的无自相关性检验,就能判定为白噪声序列?
A:(1)一方面,平稳序列一般具有短期相关性。即若序列有显著相关性,通常只存在延迟时间较短的序列值间;(2)另一方面,一个平稳序列存在短期相关性,则该序列一定不是白噪声序列,没必要进行长期延迟检验。