时间序列分析-----2---时间序列预处理

最新推荐文章于 2024-08-20 00:47:51 发布

麦地与诗人

最新推荐文章于 2024-08-20 00:47:51 发布

阅读量6.7k

点赞数 7

分类专栏：数学建模

本文链接：https://blog.csdn.net/YPP0229/article/details/100140709

版权

数学建模专栏收录该内容

9 篇文章 1 订阅

订阅专栏

既然有了序列，那怎么拿来分析呢？

时间序列分析方法分为描述性时序分析和统计时序分析。

1、描述性时序分析

通过直观的数据比较或绘图观测，寻找序列中蕴含的发展规律，这种分析方法就称为描述性时序分析。

描述性时序分析方法具有操作简单、直观有效的特点，它通常是人们进行统计时序分析的第一步。

2、统计时序分析

（1）频域分析方法

原理：假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动

发展过程：
1）早期的频域分析方法借助富里埃分析从频率的角度揭示时间序列的规律
2）后来借助了傅里叶变换，用正弦、余弦项之和来逼近某个函数
3）20世纪60年代，引入最大熵谱估计理论，进入现代谱分析阶段

特点：非常有用的动态数据分析方法，但是由于分析方法复杂，结果抽象，有一定的使用局限性

（2）时域分析方法

原理：事件的发展通常都具有一定的惯性，这种惯性用统计的语言来描述就是序列值之间存在着一定的相关关系，这种相关关系通常具有某种统计规律。

目的：寻找出序列值之间相关关系的统计规律，并拟合出适当的数学模型来描述这种规律，进而利用这个拟合模型预测序列未来的走势

特点：理论基础扎实，操作步骤规范，分析结果易于解释，是时间序列分析的主流方法

说了半天，其实，时域分析才是我们经常接触的。

时域分析方法的分析步骤：

考察观察值序列的特征
根据序列的特征选择适当的拟合模型
根据序列的观察数据确定模型的口径
检验模型，优化模型
利用拟合好的模型来推断序列其它的统计性质或预测序列将来的发展

时域分析方法的发展过程

基础阶段

G.U.Yule：1927年，AR模型
G.T.Walker：1931年，MA模型，ARMA模型

核心阶段

G.E.P.Box和G.M.Jenkins
1970年，出版《Time Series Analysis Forecasting and Control》
提出ARIMA模型（Box—Jenkins 模型）
Box—Jenkins模型实际上是主要运用于单变量、同方差场合的线性模型

完善阶段

异方差场合：Robert F.Engle，1982年，ARCH模型
Bollerslov，1985年GARCH模型
多变量场合：C.Granger ，1987年，提出了协整（co- integration）理论
非线性场合：汤家豪等，1980年，门限自回归模型

用哪些软件可以做时间序列分析呢？

S-plus，Matlab，Gauss，TSP，Eviews 和SAS。

上述软件楼主觉得Eviews是基础版，Gauss是小众版，Matlab&S-pluss是正常小青年，SAS—万能的软件BOSS啊~~~

时间序列的预处理1-----平稳性检验

序列在建模前到底要做哪些预处理呢？首先，大伙都知道的平稳性检验是必须的！

说到平稳，其实有两种平稳——宽平稳、严平稳。

严平稳相较于宽平稳来说，条件更多更严格，而我们时常运用的时间序列，大多宽平稳就够了。

什么是严平稳：

是在固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程。这样，数学期望和方差这些参数也不随时间和位置变化。（比如白噪声）。

什么是宽平稳：

宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定，所以只要保证序列低阶矩平稳（二阶），就能保证序列的主要性质近似稳定。

两者关系：

一般关系：严平稳条件比宽平稳条件苛刻，通常情况下，严平稳（低阶矩存在）能推出宽平稳成立，而宽平稳序列不能反推严平稳成立。

特例：不存在低阶矩的严平稳序列不满足宽平稳条件，例如服从柯西分布的严平稳序列就不是宽平稳序列。当序列服从多元正态分布时，宽平稳可以推出严平稳。

如何判断序列是平稳的？

先从图形法上看（通常越是简单的方法，往往越能看到问题，图形给出的第一感觉也许就是真相哦~~~~）

时序图，例如(eviews画滴)：

在这里插入图片描述

分析：

什么样的图不平稳，先说下什么是平稳，平稳就是围绕着一个常数上下波动。看看上面这个图，很明显的增长趋势，不平稳。

我们还可以根据自相关和偏相关系数来查看：
在这里插入图片描述
还以上面的序列为例：用eviews得到自相关和偏相关图，Q统计量和伴随概率。

分析：

平稳的序列的自相关图和偏相关图不是拖尾就是截尾。

截尾就是在某阶之后，系数都为 0 ，怎么理解呢，看上面偏相关的图，当阶数为 1 的时候，系数值还是很大， 0.914. 二阶长的时候突然就变成了 0.050. 后面的值都很小，认为是趋于 0 ，这种状况就是截尾。

再就是拖尾，拖尾就是有一个衰减的趋势，但是不都为 0 。自相关图既不是拖尾也不是截尾。

以上的图的自相关是一个三角对称的形式，这种趋势是单调趋势的典型图形。

平稳序列的预测

平稳性是指时间序列的所有统计性质都不会随着时间的推移而发生变化，对于一个平稳的时间序列来说，需要具有以下特征：

（1）均数和方差不随时间变化；

（2）自相关系数只与时间间隔有关，与所处的时间无关。

相关系数是用来量化变量之间的相关程度。

自相关系数研究的是一个序列中不同时期的相关系数，也就是时间序列计算其当前期和不同滞后期的一系列相关系数。

目前主流的时间序列预测方法都是针对平稳的时间序列进行分析的，但是实际上，我们遇到的大多数时间序列都不平稳，所以在分析时，需要首先识别序列的平稳性，并且把不平稳的序列转换为平稳序列。一个时间序列只有被平稳化处理过，才能被控制和预测。

检测出来序列不是平稳的怎么办？

将时间序列平稳化的方式有很多，基础的方法是差分，因为这个方法有助于我们解读时间序列模型。

差分，就是指序列中前后相邻的两期数据之差。

差分，就是指序列中前后相邻的两期数据之差，一般用 $\nabla$ 表示。那么，计算一次差分，其表达式为： $\nabla y_t=y_t-y_{t-1}$
其中， $y_t$ 是当前的数值， $y_{t-1}$ 是上一期的数值， $\nabla y_t$ 即为一次差分，也为一阶差分。

同理，二阶差分的表达式为： $\nabla ^2y_t=\nabla(\nabla y_t)=(y_t-y_{t-1})-(y_{t-1}-y_{t-2})$

1.什么是差分？有哪些类型？区别在哪？

差分其实不仅仅是只有一次差分，通常我们将一次差分运算叫做一阶差分，再一次差分就叫做二阶差分，以此类推，P次差分就是P阶差分。

最开始的差分：

在这里插入图片描述

P阶差分

在这里插入图片描述

K步差分

这个不常见，但有时也会用到.
在这里插入图片描述

P阶，就是P次的概念；K步就是在一次差分里间隔K个数据的概念.

2.什么是延迟算子？

延迟算子类似于一个时间指针，当前序列值乘以一个延迟算子，就相当于把当前序列值的时间向过去拨了一个时刻记B为延迟算子，有
在这里插入图片描述

延迟算子性质

在这里插入图片描述

为什么要提到延迟算子？因为可以用它来表示差分运算.

在这里插入图片描述

自回归模型

自回归模型（英语：Autoregressive model，简称AR模型），是统计上一种处理时间序列的方法，用同一变数例如 $x$ 的之前各期，亦即 $x_1$ 至 $x_{t-1}$ 来预测本期xt的表现，并假设它们为一线性关系。因为这是从回归分析中的线性回归发展而来，只是不用 $x$ 预测 $y$ ，而是用 $x$ 预测 $x$ （自己）；所以叫做自回归。

自回归模型被广泛运用在经济学、信息学、自然现象的预测上。

$X_t=c+\sum_{i=1}^p\varphi_iX_{t-i}+\epsilon_t$

其中： $c$ 是常数项；被假设为平均数等于0，标准差等于 $\sigma$ 的随机误差值； $\sigma$ 被假设为对于任何的t都不变。

文字叙述为： $X$ 的当期值等于一个或数个落后期的线性组合，加常数项，加随机误差。

自回归方法的优点是所需资料不多，可用自身变数数列来进行预测。但是这种方法受到一定的限制：

必须具有自相关，自相关系数 $\varphi_i$ 是关键。如果自相关系数小于0.5，则不宜采用，否则预测结果极不准确。

自回归只能适用于预测与自身前期相关的经济现象，即受自身历史因素影响较大的经济现象，如矿的开采量，各种自然资源产量等；对于受社会因素影响较大的经济现象，不宜采用自回归，而应改采可纳入其他变数的向量自回归模型。

自相关系数

相关系数度量指的是两个不同事件彼此之间的相互影响程度；而自相关系数度量的是同一事件在两个不同时期之间的相关程度，形象的讲就是度量自己过去的行为对自己现在的影响。

在时间序列分析分析中，对于时间序列 $\{X_t，x\in T\}$ ，任取 $t ， s \in T ，$ 定义γ$(t,s)为序列{Xt}的自协方差函数：