数据挖掘——时间序列的预处理

前言

拿到一个观察值后,首先要对他的纯随机性和平稳性进行检验,这两个重要的检验称为序列的预处理。根据检验结果可以将序列分为不同的类型,对不同类型的序列会采取不同的分析方法。
时间序列根据数据的分布可以分为纯随机序列和平稳非白噪声序列、非平稳序列。

一、平稳非白噪声序列

对于平稳非白噪声序列,他的均值和方差是常数,现有一套非常成熟的平稳序列的建模方法。通常是建立一个线性模型来拟合该序列的发展,借此提取该序列的有用信息.ARMA模型是最常用的平稳序列拟合模型。那么方法有了,怎样确定一个时间序列是平稳的时间序列呢?请往下看。

1、平稳时间序列的定义

对于时间序列 X t , t ∈ T {X_{t},t \in T} Xt,tT,任意时刻的序列值 X t X_{t} Xt都是一个随机变量,每一个随机变量都会有均值和方差,记为 X t X_{t} Xt的均值为 μ \mu μ,方差为 σ \sigma σ.

任取 t , s ∈ T t,s\in T t,sT,定义序列 X t {X_{t}} Xt的:
自 协 方 差 函 数 : γ ( t , s ) = E [ ( X t − μ t ) ( X s − μ s ) ] (1) 自协方差函数:\gamma(t,s)=E[(X_{t}-\mu_{t})( X_{s}-\mu_{s})]\tag{1} γ(t,s)=E[(Xtμt)(Xsμs)](1)
自 相 关 系 数 : ρ ( t , s ) = c o v ( X t , X s ) σ t σ s (2) 自相关系数:\rho(t,s)=\frac{cov(X_{t},X_{s})}{\sigma_{t}\sigma{s}}\tag{2} ρ(t,s)=σtσscov(Xt,Xs)(2)
特别的 γ ( t , t ) = γ ( 0 ) = 1 , ρ 0 = 1 \gamma(t,t)=\gamma(0)=1,\rho_{0}=1 γ(t,t)=γ(0)=1,ρ0=1
自协方差和自相关系数衡量的是同一个事件在两个不同时期(s和t)之间的相关程度,形象的讲就是度量自己过去的行为对自己现在的影响。

准则:
(1)如果时间序列 X t , t ∈ T {X_{t},t\in T} Xt,tT在某一常数附近波动且波动范围有限,即有常数均值和常数方差;
(2)延迟k期的序列变量的自协方差和自相关系数是相等的或者说延迟k期的序列变量之间的影响程度是一样的,则是平稳序列

2、平稳性检验

上面可以判断出是否为平稳序列,那么现在该判断平稳性“怎么样”。
对序列的平稳性的检验有三种检验方法:
(1)时序图检验:根据数据画图,平稳序列的时序图显示该序列值始终在一个常数附近随机波动,且波动范围有限;如果有明显的趋势性或者周期性,那他通常不是平稳序列;
(2)自相关图检验:随着延迟数k的增加,平稳序列的自相关系数 ρ k \rho_{k} ρk(延迟k期)会比较快的衰减趋向于零,并在零附近随机波动,而非平稳序列的自相关系数衰减的速度比较慢;
(3)单位根检验:如果存在单位根就是非平稳时间序列。

二、非平稳序列

对于非平稳序列,由于他的均值和方差不稳定,处理方法一般是将其转变为平稳序列,这样就可以应用有关平稳时间序列的分析方法,如建立ARMA模型进行相应的研究。如果一个时间序列经差分运算后具有平稳性,则该序列为差分平稳序列,可以使用ARIMA模型进行分析。

三、纯随机序列

对于纯随机序列,又称为白噪声序列,序列的各项之间没有任何相关关系,序列在进行完全无序的随机波动,可以终止对该序列的分析。白噪声序列是没有任何信息可以提取的平稳序列。

什么样的序列是纯随机序列?
答:自相关系数接近0,并在零附近波动。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值