python数据分析与挖掘实战—时间序列

一、预处理 

       拿到一个观察值序列后,首先对它的纯随机性和平稳性进行检验,这个连个重要的检验称为序列的预处理。根据检验结果可以将序列分为不同的类型,对不同类型的序列会采取不同的分析方法。

       对于纯随机序列,又称为白噪声序列。 序列的各项之间没有任何相关关系,序列在进行完全无序的随机波动,可以终止对该序列的分析。白噪声序列是没有信息可以提取的平稳序列。

        对于平稳非白噪声序列,它的均值和方差是常数,通常是建立一个线性模型来拟合该序列的发展,借此提取该序列的有用信息。ARMA模型是最常用的平稳序列拟合模型。

        对于非平稳序列,由于它的均值和方差不稳定,处理方法一般是将其转变为平稳序列,应用平稳时间序列的分析方法,如建立ARMA模型来进行相应的研究。如果一个时间序列经差分运算后具有平稳性,则该序列为差分平稳序列,可以使用ARIMA模型进行分析。


1.平稳性检验:

(1)根据时序图和自相关图的特征做出判断的图检验。    操作简单、应用广泛,但带有主观性。

        时序图检验:平稳时间序列的均值和方差都为常数的性质。平稳时序的时序图显示该序列值始终在一个常数附近随机波动,并且波动的范围有界;如果有明显的趋势性或者周期性,那它通常不是平稳序列。

        自相关图检验:平稳序列具有短期相关性,表明对平稳序列而言只有近期的序列值对现时值的影响比较明显,间隔越远的过去值对现时值的影响越小。随着延迟期数K的增加,平稳序列的自先关系数Pk(延迟K期)会比较快的衰减趋向于0,并在0附近随机波动,而非平稳序列的自相关系数衰减的速度比较慢。

(2)第二种是构造验证统计量进行检验的方法,目前最常用的方法是单位根检验。

        单位根检验:是指序列中是否存在单位根,如果存在单位根就是非平稳时间序列。

2.纯随机性检验:

        如果一个序列是纯随机序列,那么它的序列值之间应该没有任何关系,即满足y(k)=0,k!=0。这是理论上的理想状态。实际上,自相关系数不会绝对为0,但是很接近0,并且在0附近随机波动。

        随随机性检验也称为白噪声检验,一般是构造检验统计量来检验序列的纯随机性,常用的检验统计量有Q统计量,LB统计量,由样本各延迟期数的自相关系数可以计算得到检验统计量,然后计算出对应的P值,如果P值显著大于显著性水平a,则表示该序列不能拒绝纯随机的原假设,可以停止对该序列的分析。


二、平稳时间序列分析:




三、非平稳时间序列分析:

非平稳序列一定不是白噪声序列

(1)确定性因素分解的时序分析

        把所有序列的变化都归结为4个因素(长期趋势、季节变动、循环变动和随机波动)的综合影响,其中长期趋势和季节变动的规律性信息通常比较容易提取,而由随机因素导致的波动则非常难确定和分析,对随机信息浪费严重,会导致模型拟合精度不够理想。

(2)随机时序分析

        随机时序分析可以建立的模型有ARIMA模型、残差自回归模型、季节模型、异方差模型等。

        ARIMA模型对非平稳时间序列进行建模的方法:

        

            拟合ARMA模型:

                    进行模型定阶。模型定阶就是确定p和q。

                    (1)人为识别的方法。

                                根据表5-24进行模型定阶。

                    (2)相对最优模型识别。

                                具体详见书128页。待后续整理。



四、Python主要时序模式算法:

        Python实现时序模式的主要库是StatsModels(能用Pandas,就用Pandas先做),算法主要是ARIMA模型。书132页

     



五、离群点检测:

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值