数据挖掘——时间序列的预处理
前言
拿到一个观察值后,首先要对他的纯随机性和平稳性进行检验,这两个重要的检验称为序列的预处理。根据检验结果可以将序列分为不同的类型,对不同类型的序列会采取不同的分析方法。
时间序列根据数据的分布可以分为纯随机序列和平稳非白噪声序列、非平稳序列。
一、平稳非白噪声序列
对于平稳非白噪声序列,他的均值和方差是常数,现有一套非常成熟的平稳序列的建模方法。通常是建立一个线性模型来拟合该序列的发展,借此提取该序列的有用信息.ARMA模型是最常用的平稳序列拟合模型。那么方法有了,怎样确定一个时间序列是平稳的时间序列呢?请往下看。
1、平稳时间序列的定义
对于时间序列 X t , t ∈ T {X_{t},t \in T} Xt,t∈T,任意时刻的序列值 X t X_{t} Xt都是一个随机变量,每一个随机变量都会有均值和方差,记为 X t X_{t} Xt的均值为 μ \mu μ,方差为 σ \sigma σ.
任取
t
,
s
∈
T
t,s\in T
t,s∈T,定义序列
X
t
{X_{t}}
Xt的:
自
协
方
差
函
数
:
γ
(
t
,
s
)
=
E
[
(
X
t
−
μ
t
)
(
X
s
−
μ
s
)
]
(1)
自协方差函数:\gamma(t,s)=E[(X_{t}-\mu_{t})( X_{s}-\mu_{s})]\tag{1}
自协方差函数:γ(t,s)=E[(Xt−μt)(Xs−μs)](1)
自
相
关
系
数
:
ρ
(
t
,
s
)
=
c
o
v
(
X
t
,
X
s
)
σ
t
σ
s
(2)
自相关系数:\rho(t,s)=\frac{cov(X_{t},X_{s})}{\sigma_{t}\sigma{s}}\tag{2}
自相关系数:ρ(t,s)=σtσscov(Xt,Xs)(2)
特别的
γ
(
t
,
t
)
=
γ
(
0
)
=
1
,
ρ
0
=
1
\gamma(t,t)=\gamma(0)=1,\rho_{0}=1
γ(t,t)=γ(0)=1,ρ0=1
自协方差和自相关系数衡量的是同一个事件在两个不同时期(s和t)之间的相关程度,形象的讲就是度量自己过去的行为对自己现在的影响。
准则:
(1)如果时间序列
X
t
,
t
∈
T
{X_{t},t\in T}
Xt,t∈T在某一常数附近波动且波动范围有限,即有常数均值和常数方差;
(2)延迟k期的序列变量的自协方差和自相关系数是相等的或者说延迟k期的序列变量之间的影响程度是一样的,则是平稳序列
2、平稳性检验
上面可以判断出是否为平稳序列,那么现在该判断平稳性“怎么样”。
对序列的平稳性的检验有三种检验方法:
(1)时序图检验:根据数据画图,平稳序列的时序图显示该序列值始终在一个常数附近随机波动,且波动范围有限;如果有明显的趋势性或者周期性,那他通常不是平稳序列;
(2)自相关图检验:随着延迟数k的增加,平稳序列的自相关系数
ρ
k
\rho_{k}
ρk(延迟k期)会比较快的衰减趋向于零,并在零附近随机波动,而非平稳序列的自相关系数衰减的速度比较慢;
(3)单位根检验:如果存在单位根就是非平稳时间序列。
二、非平稳序列
对于非平稳序列,由于他的均值和方差不稳定,处理方法一般是将其转变为平稳序列,这样就可以应用有关平稳时间序列的分析方法,如建立ARMA模型进行相应的研究。如果一个时间序列经差分运算后具有平稳性,则该序列为差分平稳序列,可以使用ARIMA模型进行分析。
三、纯随机序列
对于纯随机序列,又称为白噪声序列,序列的各项之间没有任何相关关系,序列在进行完全无序的随机波动,可以终止对该序列的分析。白噪声序列是没有任何信息可以提取的平稳序列。
什么样的序列是纯随机序列?
答:自相关系数接近0,并在零附近波动。