时间序列预测 — — ARIMA模型
一、理论分析
ARIMA模型的全称为:差分整合移动平均自回归模型
时间序列是一种数据类型,它记录了在连续时间点上观测到的数值。这些数值可以是任何可以量化的度量,比如经济指标、股票价格、温度、销售额等。
时间序列数据是一种按照时间顺序排列的数据集,其中每个数据点都与一个特定的时间点相关联。这种数据类型通常用于记录和分析随时间变化的数值信息。
时间序列根据时间和数值的性质不同,可以分为时期时间序列和时点时间序列。
- 时期时间序列:数值要素反映现象在一定时期内发展的结果。
- 时点时间序列:数值要素反应现象在一定时点上的瞬时水平。
性质:时期序列可加,时点序列不可加
时间序列模型的数据必须要满足平稳性!
平稳性
平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段时间内仍然能够按照现有的形态延续下去。
平稳性要求序列的期望和方差不发生明显变化,根据平稳性,可将数据分为严平稳和宽平稳
- 严平稳:也称为强平稳或严格平稳,它要求时间序列的所有统计特性(如均值、方差、协方差等)在时间上完全不变。
- 宽平稳:也称为弱平稳,它要求时间序列的一阶和二阶矩(即均值和方差)在时间上保持不变,但不需要协方差在时间上保持不变。
实际数据大致上都是宽平稳,如果一个时间序列不是平稳的,通常需要通过差分的方式将其转化为平稳时间序列。
差分法
时间序列在 t t t和 t − 1 t-1 t−1时刻的差值,将非平稳序列变平稳。
Δ y ( x ) = y ( x + 1 ) − y ( x ) , ( x = 0 , 1 , 2 , ⋯ ) \Delta{y(x)} = y(x + 1) - y(x) , ~~~~ (x = 0, 1, 2, \cdots) Δy(x)=y(x+1)−y(x), (x=0,1,2,⋯)
ARIMA模型可以分为三部分:AR表示自回归模型,MA表示移动平均模型,I表示差分法。
模型详解
一、自回归模型:AR( p )
自回归模型用于描述当前值和历史值之间的关系,用变量自身的历史数据对自身进行预测,数据必须要满足平稳性要求,只适用于预测与自身前期相关的现象(时间序列的自相关性)
p p p阶自回归过程的公式:
y t = μ + ∑ i = 1 p γ i y t − i + ϵ t y_t = \mu + \sum\limits_{i = 1}^{p} \gamma_i y_{t - i} + \epsilon_t yt=μ+i=1∑pγiyt−i+ϵt
p p p表示使用几期的历史值来预测,其中 y t y_t yt是当前值, μ \mu μ是常数项,p是阶数, γ i \gamma_i γi是自相关系数
二、移动平均模型:MA( q )
移动平均模型关注的是自回归模型中误差项的累计
q q q阶自回归过程的公式定义:
y t = μ + ∑ i = 1 q θ t ϵ t − i + ϵ t y_t = \mu + \sum\limits_{i = 1}^{q}\theta_t \epsilon_{t - i} + \epsilon_t yt=μ+i=1∑qθtϵt−i+ϵt
公式表明:时间序列的当前值与历史值没有关系,而只依赖于历史白噪声的线性组合,移动平均法能有效地消除预测中的随机波动
三、自回归移动平均模型:ARMA(p, q)
自回归移动平均模型是自回归模型与移动平均模型的结合,公式:
y t = μ + ∑ i = 1 p γ i y t − 1 + ∑ i − 1 q θ i ϵ t − 1 + ϵ