时间序列预测算法---ARIMA

  在机器学习和深度学习的世界当中,存在众多经典且有效的(时间)序列模型。这些模型通常通过三种方式来建立样本与样本之间的关联:
ARIMA家族算法群:过去影响未来,因此未来的值由过去的值加权求和而成,以此构建样本与样本之间的关联。
循环网络家族:遍历时间点/样本点,将过去的时间上的信息传递存储在中间变量中,传递给下一个时间点,以此构建样本和样本之间的关联。
卷积网络家族:使用卷积核扫描时间点/样本点,将上下文信息通过卷积计算整合到一起,以此构建样本和样本之间的关联。
时间序列相关参考文章
时间序列预测算法—ARIMA
基于VARMAX模型的多变量时序数据预测
基于机器学习时序库pmdarima实现时序预测
时间序列预测算法—Prophet
时间序列预测算法—LSTM
长时间序列预测算法—Informer
时间序列分类任务—tsfresh
有季节效应的非平稳序列分析
python时间序列处理
时间序列异常值检测方法
时间序列异常值处理方法
  现代时间序列分析方法主要有两个不同的方向:一个方向是由外向内的分析视角产生的方法是与确定性因素分解相关的方法;一个方向是由内向外的分析视角产生的方法是时域分析方法

一、确定性因素分析方法

  确定性因素分解方法认为所有的序列波动都可以归纳为受到如下四大类因素的综合影响:
长期趋势(Trend)。序列呈现出明显的长期递增或递减的变化趋势。
循环波动(Circle)。序列呈现出从低到高再由高到低的反复循环波动。循环周期可长可短,不一定是固定的。
季节性变化(Season)。序列呈现出和季节变化相关的稳定周期波动。
随机波动(lmmediate)。除了长期趋势、循环波动和季节性变化之外,其他不能用确定性因素解释的序列波动,都属于随机波动。
常用的模型:
加法模型:x=T+C+S+I
乘法模型:x=TxCxSxI

1.1、确定性因素分析方法

指数平滑预测方法
  简单指数平滑(平稳序列预测)
  Holt两参数指数平滑(趋势序列预测)
  HoltWinters三参数指数平滑(周期序列预测)
以X11/X12模型为核心的各种季节调整模型
  X11模型是第二次世界大战之后,美国人口普查局委托统计学家进行的基于计算机自动进行的时间序列因素分解方法。1954年,X0版本面世,随后十多年陆续推出新的改进版本。1965年,推出成熟版本X11。
  1975年,加拿大统计局将ARIMA模型引入X11模型,开发了X11-ARIMA模型。ARIMA模型可以对序列进行向后预测扩充数据,以保证拟合数据的完整性,弥补了中心移动平均方法的缺陷。
  1998年,美国人口普查局开发了X12-ARIMA模型。它的改进是将一些特殊因素作为干预变量引入研究。这些干预变量包括:特殊节假日、固定季节因素、工作日因素、交易日因素、闰年因素,以及研究人员自行定义的任意自变量。
  2006年美国人口普查局再次推出更新版本X13-ARIMA-Seats,它是在X12-ARIMA的基础上,增加了seats季节调整方法。

二、时域分析方法

  时域分析方法主要是从序列自相关的角度揭示时间序列的发展规律。时域分析方法的理论基础:Wold分解定理Cramer分解定理
  Wold分解定理证明任何平稳序列都可以分解为确定性序列随机序列之和;Wold分解定理是现代时间序列分析理论的灵魂,是构造ARMA模型拟合平稳序列的理论基础。基于Wold分解定理可以建立:AR模型(自回归模型)MA模型(移动平均模型)ARMA模型(自回归移动平均模型)
  Cramer是Wold的指导老师,Cramer分解定理(1962年)是Wold分解定理的理论推广,它是非平稳序列的分解理论,是构造ARIMA模型的理论基础。基于Cramer分解定理可以建立:ARIMA模型
  AR模型只依赖于自身的过去值,MA模型则依赖于过去的误差项。ARMA模型结合了这两者,既考虑过去值也考虑误差项。因此,ARMA模型可以看作是AR和MA模型的结合体,适用于平稳时间序列分析。ARIMA模型(差分自回归移动平均模型)是在ARMA模型的基础上引入了差分运算,以处理非平稳时间序列。基于以上两种定理,下面主要介绍ARMA模型和ARIMA模型。

2.1、ARMA模型(自回归移动平均模型)

  同一现象在不同时间上的相继观察值排列而成的序列,这些观察值是一个个随机变量,所以时间序列是随机变量序列。通常可以分为三大类:白噪声序列平稳非白噪声序列非平稳序列

2.1.1、建模流程

在这里插入图片描述

2.1.2、模型的平稳性检验-----单位根检验

  对平稳序列建模首先需要确定序列是平稳的。平稳性检验方法有:图检验法单位根检验法(DF检验和ADF检验)
  图检验法:平稳时间序列具有常数均值和方差。这意味着平稳序列的时序图应该显示出该序列始终在一个常数值附近波动,而且波动的范围有界的特点。图检验方法主要适用于趋势或周期比较明显的序列,对于趋势或周期不太明显的序列,通过图检验方法来判断序列的平稳性具有一定的主观性。图检验法分为:时序图检验自相关图检验
  自相关图是一个平面二维坐标悬垂线图,横坐标表示延迟时期数,纵坐标表示自相关系数,悬垂线的长度表示自相关系数的大小。平稳序列通常具有短期相关性,这就是我们利用自相关图进行平稳性判别的标准,该性质用自相关系数来描述就是随着延迟阶数k的增加,平稳序列的自相关系数P会很快地衰减向零;而非平稳序列的自相关系数P衰减向零的速度通常比较慢
  单位根检验:如果序列是平稳的,那么该序列的所有特征根都应该在单位圆内。如果序列有特征根在单位圆上或单位圆外,那么该序列就是非平稳序列。

2.1.3、纯随机性(白噪声)检验-----Q统计量和LB统计量

  拿到一个观察值序列之后,首先是判断它的平稳性。通过平稳性检验,序列可以分为平稳序列和非平稳序列两大类。但并不是所有的平稳序列都值得建模,只有那些序列值之间具有密切的相关关系、历史数据对未来的发展有一定影响的序列,才值得我们花时间去挖掘历史数据中的有效信息用来预测序列未来的发展。
  如果序列值彼此之间没有任何相关性,那就意味着该序列是一个没有记忆的序列,过去的行为对将来的发展没有丝毫影响,这种序列称为纯随机序列。从统计分析的角度来说,纯随机序列是没有任何分析价值的序列。纯随机序列的性质:纯随机性(各序列值之间没有任何相关关系)和方差齐性
在这里插入图片描述
假设条件:
原假设:延迟期数小于或等于 m 期的序列值之间相互独立
备择假设:延迟期数小于或等于m 期的序列值之间有相关性
检验统计量:Q统计量LB统计量

2.1.3、模型的参数(p,q)识别-----ACF、PACF

  自相关系数ACF衡量当前时间点上的观测值与任意历史时间点的观测值之间的相关性大小,而偏自相关系数PACF衡量当前时间点上的观测值与任意历史时间点的观测值之间的直接相关性的大小

什么是直接相关性?
  时间序列的基本原则之一是“过去影响未来”,假设时间序列 t s = [ y t − 2 , y t − 1 , y t ] ts = [y_{t-2}, y_{t-1},y_t] ts=[yt2,yt1,yt],那 y t − 2 y_{t-2} yt2的值是如何影响了 y t y_t yt的值的呢?有多种可能:例如, y t − 2 y_{t-2} yt2的值直接影响了 y t y_t yt的值(比如,双11当天的销量直接冲击了双11两天后的销量),也有可能 y t − 2 y_{t-2} yt2影响了 y t − 1 y_{t-1} yt1,再由 y t − 1 y_{t-1} yt1将这种影响传递给 y t y_t yt(比如,前天的降雨量影响了昨天的降雨量,昨天的降雨量又影响今天的降雨量),还有可能两种影响都发生了,又或许 y t − 2 y_{t-2} yt2 y t y_t yt之间根本没有互相影响。在这些多种的影响方式中, y t − 2 y_{t-2} yt2直接对 y t y_t yt产生的影响越大, y t − 2 y_{t-2}

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值