时间序列的预处理

最新推荐文章于 2024-08-20 00:47:51 发布

studyaswolf

最新推荐文章于 2024-08-20 00:47:51 发布

阅读量1.6w

点赞数 3

本文转自时间序列ARIMA模型详解：python实现店铺一周销售量预测

顾名思义，时间序列是时间间隔不变的情况下收集的时间点集合。这些集合被分析用来了解长期发展趋势，为了预测未来或者表现分析的其他形式。但是是什么令时间序列与常见的回归问题的不同？

有两个原因：

1、时间序列是跟时间有关的。所以基于线性回归模型的假设：观察结果是独立的在这种情况下是不成立的。

2、随着上升或者下降的趋势，更多的时间序列出现季节性趋势的形式，如：特定时间框架的具体变化。即：如果你看到羊毛夹克的销售上升，你就一定会在冬季做更多销售。

常用的时间序列模型有AR模型、MA模型、ARMA模型和ARIMA模型等。

一、时间序列的预处理

拿到一个观察值序列之后，首先要对它的平稳性和纯随机性进行检验，这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型，对不同类型的序列我们会采用不同的分析方法。

先说下什么是平稳，平稳就是围绕着一个常数上下波动且波动范围有限，即有常数均值和常数方差。如果有明显的趋势或周期性，那它通常不是平稳序列。序列平稳不平稳，一般采用三种方法检验：

（1）时序图检验

看看上面这个图，很明显的增长趋势，不平稳。

（2）自相关系数和偏相关系数

自相关系数：相关系数度量指的是两个不同事件彼此之间的相互影响程度；而自相关系数度量的是同一事件在两个不同时期之间的相关程度，形象的讲就是度量自己过去的行为对自己现在的影响。

在时间序列分析中，对于时间序列{Xt，x∈T}，任取t，s∈T，定义γ(t,s)为序列{Xt}的自协方差函数：

γ(t,s)=E(Xt-μt)(Xs-μs)

定义ρ(t,s)为时间序列{Xt}的自相关系数，简记为ACF：

ρ(t,s)= γ(t,s)/sqrt(DXt×DXs) 其中，E表示数学期望，D表示方差。

偏相关系数:在多要素所构成的系统中，当研究某一个要素对另一个要素的影响或相关程度时，把其他要素的影响视作常数（保持不变），即暂时不考虑其他要素影响，单独研究两个要素之间的相互关系的密切程度，所得数值结果为偏相关系数。

还以上面的序列为例：用SPSS得到自相关和偏相关图。

分析：左边第一个为自相关图（Autocorrelation），第二个偏相关图(Partial Correlation)。

平稳的序列的自相关图和偏相关图要么拖尾，要么是截尾。截尾就是在某阶之后，系数都为 0 ，怎么理解呢，看上面偏相关的图，当阶数为 1 的时候，系数值还是很大， 0.914. 二阶长的时候突然就变成了 0.050. 后面的值都很小，认为是趋于 0 ，这种状况就是截尾。什么是拖尾，拖尾就是有一个缓慢衰减的趋势，但是不都为 0 。

自相关图既不是拖尾也不是截尾。以上的图的自相关是一个三角对称的形式，这种趋势是单调趋势的典型图形，说明这个序列不是平稳序列。

（3）单位根检验

单位根检验是指检验序列中是否存在单位根，如果存在单位根就是非平稳时间序列。

不平稳，怎么办？

答案是差分，转换为平稳序列。什么是差分？一阶差分指原序列值相距一期的两个序列值之间的减法运算；k阶差分就是相距k期的两个序列值之间相减。如果一个时间序列经过差分运算后具有平稳性，则该序列为差分平稳序列，可以使用ARIMA模型进行分析。

还是上面那个序列，两种方法都证明他是不靠谱的，不平稳的。确定不平稳后，依次进行1阶、2阶、3阶...差分，直到平稳为止。先来个一阶差分，上图:

从图上看，一阶差分的效果不错，看着是平稳的。

平稳性检验过后，下一步是纯随机性检验。

对于纯随机序列，又称白噪声序列，序列的各项数值之间没有任何相关关系，序列在进行完全无序的随机波动，可以终止对该序列的分析。白噪声序列是没有信息可提取的平稳序列。

对于平稳非白噪声序列，它的均值和方差是常数。通常是建立一个线性模型来拟合该序列的发展，借此提取该序列的有用信息。ARMA模型是最常用的平稳序列拟合模型。

二、平稳时间序列建模

某个时间序列经过预处理，被判定为平稳非白噪声序列，就可以进行时间序列建模。

建模步骤：

（1）计算出该序列的自相关系数（ACF）和偏相关系数（PACF）；

（2）模型识别，也称模型定阶。根据系数情况从AR(p)模型、MA(q)模型、ARMA(p，q)模型、ARIMA（p，d，q）模型中选择合适模型，其中p为自回归项，d为差分阶数，q为移动平均项数。

下面是平稳序列的模型选择：

自相关系数（ACF）	偏相关系数（PACF）	选择模型
拖尾	p阶截尾	AR(p)
q阶截尾	拖尾	MA(q)
p阶拖尾	q阶拖尾	ARMA(p，q)

ARIMA 是 ARMA 算法的扩展版，用法类似。

（3）估计模型中的未知参数的值并对参数进行检验；

（4）模型检验；

（5）模型优化；

（6）模型应用：进行短期预测。

三、python实例操作

以下为某店铺2015/1/1~2015/2/6的销售数据,以此建模预测2015/2/7~2015/2/11的销售数据。

#-*- coding: utf-8 -*-
#arima时序模型

import pandas as pd

#参数初始化
discfile = 'E:/destop/text/arima_data.xls'
forecastnum = 5

#读取数据，指定日期列为指标，Pandas自动将“日期”列识别为Datetime格式
data = pd.read_excel(discfile, index_col = u'日期')

#时序图
import matplotlib.pyplot as plt