自回归，移动平均模型，ARMA，ARIMA

心态与习惯

已于 2023-12-28 10:17:19 修改

阅读量5.2k

点赞数 3

分类专栏：统计学/机器学习文章标签：自回归模型 AR 白噪声

于 2021-05-11 21:34:19 首次发布

本文链接：https://blog.csdn.net/robert_chen1988/article/details/116668833

版权

统计学/机器学习专栏收录该内容

55 篇文章

订阅专栏

近段时间在论文里经常见到一些学者用自回归模型（Auto-regression）等生成时间序列数据的随机数，或者使用 ARIMA 模型做时间序列数据的预测，决定总结一下。

文章目录

1. 一些理论知识
2. 做 ARIMA 的步骤

1. 一些理论知识

1.1 平稳性

对于一个时间序列 ${x_t\}$ ，均值、方差对于任意时间段 $t$ 都是相同的，并且对于任何相同的时间间隔 $s$ ，协方差 $Cov(x_t, x_{t+s})$ 也相同，则称该时间序列为平稳的。（这个定义为宽平稳，严格平稳要求对于相同的时间间隔，联合分布完全相同）

1.2 自相关函数 ACF

平稳性检验可以通过计算时间序列数据的自相关函数（ACF，autocorrelation function)，画出图像看出，看是否随着阶数的增加能很快趋于零。国内一些教科书把自相关函数翻译成自相关系数。

$h$ 阶自相关函数 (ACF) $\rho_h$ 为：
$\rho_h=\frac{\gamma(t+h, t)}{\sqrt{\gamma(t+h, t+h)\gamma(t,t)}}$

其中， $\gamma(t+h, t)$ 为序列 $x_t$ 与 $x_{t+h}$ 的自协方差，即

$\gamma(t+h, t)=Cov(x_{t+h}, x_t)$

对于平稳性时间序列，由于相同间隔的协方差相同，上面的表达式可以简写：由于 $\gamma(t+h, t)=\gamma(h,0)$ ， $\gamma(t+h, t)$ 可以简写成 $\gamma_h$ ， $\gamma(t+h, t+h)=\gamma(t,t)=\gamma_0$ ，因此

$\rho_h=\frac{\gamma_h}{\gamma_0}$

更标准的平稳性检验是单位根检验：ADF检验

1.3 偏自相关函数 PACF

将 $x_t$ 分别写成 $x_{t-1}$ , $x_{t-2}$ , $\dots$ , $x_{t-k}$ 的回归函数，相应的回归系数是偏自相关函数（国内教科书也称偏自相关系数）：
$\begin{aligned} x_t=&c_1+\phi_{11}x_{t-1}+\epsilon_{1t}\\ x_{t}=&c_2+\phi_{21}x_{t-1}+\phi_{22}x_{t-2}+\epsilon_{2t}\\ \vdots\\ x_{t}=&c_k+\phi_{k1}x_{t-1}+\phi_{k2}x_{t-2}+\dots+\phi_{kk}x_{t-k}+\epsilon_{kt} \end{aligned}$

其中， $\phi_{11}$ 是 $x_t$ 与 $x_{t-1}$ 的偏自相关系数， $\phi_{22}$ 是 $x_t$ 与 $x_{t-2}$ 的偏自相关系数， $\phi_{kk}$ 是 $x_t$ 与 $x_{t-k}$ 的偏自相关系数。

1.4 自回归模型（AR）

时间序列数据 ${x_t\}$ 可以表示为它的前期值和随机误差项的线性函数，即

$x_t=\mu+\varphi_1 x_{t-1}+\varphi_2 x_{t-2}+\dots+\varphi_p x_{t-p}+\varepsilon_t$

该模型为 $p$ 阶自回归模型，记为 $A R (p)$ 。其中， $\mu$ 为 $x_t$ 的均值， $\varepsilon_t$ 为均值为 0，方差为 $\sigma^2$ 的白噪声序列。

时间序列模型可以引入之后算子 $B$ ： $Bx_1=x_{t-1}$ ， $B^2x_t=x_{t-2}$ , $\dots$ , $B^px_t=x_{t-p}$ ，则自回归模型也可以表示为：

$x_t=\mu+\varphi_1 Bx_{t}+\varphi_2 B^2x_{t}+\dots+\varphi_p B^px_{t}+\varepsilon_t$

令 $\varphi(B)=1-\varphi_1B-\varphi_2B^2-\dots-\varphi_pB^p$ ，则自回归模型可以表示为：

$x_t\varphi(B)=\mu+\varepsilon_t$

1.5 移动平均模型（MA）

时间序列数据 ${x_t\}$ 可以表示为它的前期随机误差项的线性函数，即
$x_t=\mu+\varepsilon_t+\theta_{1}\varepsilon_{t-1}+\dots+\theta_{q}\varepsilon_{t-q}$

该模型为 $q$ 阶移动回归模型，记为 $M A (q)$ 。

1.6 自回归移动平均模型（ARMA）

时间序列数据 ${x_t\}$ 可以表示为：
$x_t=\mu++\varphi_1 x_{t-1}+\varphi_2 x_{t-2}+\dots+\varphi_p x_{t-p}+\varepsilon_t+\theta_{1}\varepsilon_{t-1}+\dots+\theta_{q}\varepsilon_{t-q}$

这个移动平均（moving-average）模型跟预测方法中常规的移动平均（moving average）不一样。

1.7 移动平均自回归模型（ARIMA）

时间序列数据 ${x_t\}$ 被称为 $A R I M A (p, d, q)$ ，若
$\triangledown^d x_t=(1-B)^d x$
是 $A RM A (P, Q)$ .

其中， $1-B)^dx$ 表示 $x_t$ 的 $d$ 阶差分。即 $x_t$ 的 $d$ 阶差分是自回归移动平均模型。

一阶差分： $x'_t=x_t-x_{t-1}$ ，
二阶差分： $x''_t=x'_t-x'_{t-1}=x_t-x_{t-1}-(x_{t-1}-x_{t-2})=x_t-2x_{t-1}+x_{t-2}=(1-B)^2x$

2. 做 ARIMA 的步骤

先做平稳性 ADF 检验，若不平稳，则做差分，更高阶的差分，直到通过平稳性检验为止，依次确定差分阶数 $d$
一般通过看偏自相关系系数 PACF 图，确定自回归阶数 $p$ （若第 $i$ 阶的 PACF 值低于置信区间上下界，则 $p = i - 1$ ）。PACF 系数95%置信区间的上下界为 $\pm 1.96/\sqrt{n}$ ，其中 $n$ 为样本个数
一般通过看自相关系数 ACF 图，确定移动平均阶数 $q$ 。ACF 系数95%置信区间的上下界也可以近似为 $\pm 1.96/\sqrt{n}$