时间序列基础理论和基础模型

sjq2021_2025

已于 2024-04-22 16:18:58 修改

阅读量1.6k

点赞数 13

分类专栏：时间序列文章标签：数学建模

于 2023-10-16 19:31:55 首次发布

本文链接：https://blog.csdn.net/m0_63018959/article/details/133866399

版权

时间序列专栏收录该内容

7 篇文章 0 订阅

订阅专栏

因为课程实验中有要求使用SARIMA模型，故用了一个周末查找资料，并进行演算，自己终于搞明白了，留这篇文章帮助以后复习。同时，这篇文章也简单介绍了一下ARCH模型和GARCH模型。最后，这也是我第一次写文章，有问题的地方请批评指正。

1. 时间序列理论

时间序列分析是数据分析中的重要一环，本节重点介绍时间序列分析的基础理论和基础模型。

1.1 时间序列基础理论

时间序列数据是指对同一对象在不同时间连续观察所取得的数据。例如：从出生到现在，个人体重的数据（每年生日称一次)；中国历年以来的GDP数据；在某地每隔一小时测得的温度数据等等。

时间序列主要由两个组成要素构成：第一个要素是时间要素，如年、季度、月、周、日、小时、分钟、秒等；第二个要素是数值要素，即观察得到的具体数据，例如2023年10月15日下午2点深圳市南山区的温度为28摄氏度。

因为时间序列是某个指标数值长期变化的数值表现，所以时间序列数值变化背后必然蕴含着数值变换的规律性，这些规律性就是时间序列分析的切入点。一般情况下，时间序列的数值变化规律有以下四种：

长期变动趋势
季节变动趋势
循环变动规律
不规则变动

一个时间序列往往是以上四类变化形式的叠加。下面我们逐一介绍这四类变化。

长期变动趋势

长期趋势(Secular trend)指的是统计指标在相当长的一段时间内，受到长期趋势影响因素的影响，表现出持续上升或持续下降的趋势，通常用字母T表示。例如，随着国家经济的发展，人均收入将逐渐提升；随着医学水平的提高，新生儿死亡率在不断下降。

中国新生儿死亡率

季节变动趋势

季节趋势(Seasonal Variation)是指由于季节的转变使得指标数值发生周期性变动，通常用字母S表示。这里的季节是广义的，不单单指季度，也可以是几周几月等。例如雪糕和棉衣的销量都会随着季节气温的变化而周期变化；每年的6月到9月关于“高考”的搜索指数会大幅上涨。

“高考”的百度搜索指数

循环变动规律

循环变动（Cyclical Variation），通常用字母C表示。与季节变动的周期不同，循环变动通常以若干年为周期，在曲线图上表现为波浪式的周期变动。这种周期变动的特征表现为增加和减少交替出现，但是并不具严格规则的周期性连续变动。最典型的周期案例就是市场经济的商业周期和的整个国家的经济周期。

美国失业率曲线图

不规则变动

不规则变动（Irregular Variation），通常用字母I表示。是由某些随机因素导致的数值变化，这些因素的作用是不可预知和没有规律性的，可以视为由于众多偶然因素对时间序列造成的影响（在回归中又被称为扰动项）。

以上四种变动就是时间序列数值变化的分解结果。有时这些变动会同时出现在一个时间序列里面，有时也可能只出现一种或几种，这是由引起各种变动的影响因素决定的。正是由于变动组合的不确定性，时间序列的数值变化才那么千变万化。

不规则变动示例

1.2 时间序列基础模型

时间序列的基础模型有ARMA模型，ARIMA模型，Seasonal ARIMA模型。下面将逐一介绍。

1.2.1 ARMA模型

ARMA模型（英语：Autoregressive moving average model，全称：自回归滑动平均模型）。是研究时间序列的重要方法，由自回归模型（简称AR模型）与移动平均模型（简称MA模型）为基础“混合”构成。

自回归AR（p）模型
自回归模型（英语：Autoregressive model，简称AR模型），是统计上一种处理时间序列的方法，用同一变量 $x$ 的之前各期，亦即 $x_1$ 至 $x_t$ 来预测本期 $x_t$ 的表现，并假设它们为线性关系。因为这是从回归分析中的线性回归发展而来，只是不用 $x$ 预测 $y$ 而是用 $x$ 预测 $x$ （自己）；因此叫做自回归。

定义如下：
$X_t=c+\sum_{i=1}^{p}{\phi_iX_{t-i}}+\epsilon_t$
$c$ 是常数项； $\epsilon_t$ 是误差项，是白噪声； $\phi_1,\dots,\phi_p$ 是参数； $X_{t-1},\dots,X_{t-p}$ 是过去值。

AR模型的优势是对于具有较长历史趋势的数据，AR模型可以捕获这些趋势，并据此进行预测。但是AR模型不能很好地处理某些类型的时间序列数据，例如那些有临时、突发的变化或者噪声较大的数据。AR模型相信“历史决定未来”，因此也很大程度上忽略了现实情况的复杂性。

移动平均MA(q)模型

在时间序列分析中，移动平均模型（英语：Moving Average model，简记为：MA模型）是一个常见的对单一变量时间序列进行建模的方法。移动平均模型MA(q)其实和自回归模型有相似之处，不同之处在于AR模型是以过去的观察值来做线性组合，而移动平均是以过去的残差项也就是白噪声来做线性组合。白噪声是指一种特殊的时间序列，每个时间点的数据都是独立且服从相同分布，且具有常数的均值和方差。

定义如下：
$X_t=\mu+\epsilon_t+\sum_{i=1}^{q}{\theta_i\epsilon_{t-i}}$
$\mu$ 是序列的均值； $\epsilon_t$ 是误差项，是白噪声； $\theta_1,\ldots,\theta_q$ 是参数； $\epsilon_{t-1},\ldots,\epsilon_{t-q}$ 是过去的误差项，也是白噪声。

MA模型，可以更好地处理那些有临时、突发的变化或者噪声较大的时间序列数据。但是对于具有较长历史趋势的数据，MA模型可能无法像AR模型那样捕捉到这些趋势。MA模型相信“时间序列是相对稳定的，时间序列的波动是由偶然因素影响决定的”，但现实中的时间序列很难一直维持“稳定”这一假设。

ARMA(p,q)模型

ARMA(p,q)模型中包含了p个自回归项和q个移动平均项，ARMA(p,q)模型可以表示为：
$X_t=c+\epsilon_t+\sum_{i=1}^{p}{\phi_iX_{t-i}}+\sum_{j=1}^{q}{\theta_j\epsilon_{t-j}}$
$c$ 是一个常数项； $\epsilon_t,\epsilon_{t-1},\ldots,\epsilon_{t-q}$ 为误差项，是白噪声； $\phi_1,\ldots,\phi_p$ 为AR( P )模型的参数，这些参数用来描述当前值与过去p个时间点值之间的关系； $\theta_1,\ldots,\theta_q$ 为MA(q)模型的参数，这些参数用来描述当前值与过去q个时间点的误差之间的关系。

从公式上而言，可以看出ARMA模型是AR模型和MA模型的组合：将MA模型中代表长期趋势的 $\mu$ 用AR模型进行估计，即为ARMA模型。同时，这也是运用ARMA模型所期望的——既能跟踪长期的变化趋势，又能应付短期的突变。

平稳性

AR模型，MA模型和ARMA模型都要求假设时间序列数据是平稳的。

第一，什么是平稳？

若时间序列数据 ${x_t\}$ 满足以下三个条件：

$E\left(x_t\right)=E\left(x_{t-s}\right)=u$ （均值为固定常数）
$Var\left(x_t\right)=Var\left(x_{t-s}\right)=\sigma^2$ （方差存在且为常熟）
$Cov\left(x_t,x_{t-s}\right)=\gamma_s$ （协方差只与间隔s有关，与t无关）

则称 ${x_t\}$ 为协方差平稳（covariance stationary），又称弱平稳。

特别地，若时间序列数据 ${x_t\}$ 满足以下三个条件：

$E\left(x_t\right)=E\left(x_{t-s}\right)=0$
$Var\left(x_t\right)=Var\left(x_{t-s}\right)=\sigma^2$
$Cov\left(x_t,x_{t-s}\right)=0\left(s\neq0\right)$

则称 ${x_t\}$ 为白噪声序列（white noise）。

对于时间序列数据 ${x_t\}$ 来说，若对于任意的 $t_1,t_2,\ldots,t_k$ ，( $k$ 可以任取)和 $h$ ，多维随机变量 $\left(x_{t_1},x_{t_2},\ldots,x_{t_k}\right)$ 和 $\left(x_{t_{1+h}},x_{t_{2+h}},\ldots,x_{t_{k+h}}\right)$ 的联合分布相同，则称 ${x_t\}$ 为严格平稳。

第二，为什么要平稳？

平稳性是数据同分布在时间序列中的一种表现形式，对于拟合和预测问题而言，如果数据都不是来自同一分布的话，结果不仅是不准确，且在统计上不显著，难以令人信服。当然，针对不平稳的数据也可以使用ARMA模型，毕竟平稳性条件也只是假设条件，模型还是可以使用的，但是得到的结果也只能是差强人意了。

1.2.2 ARIMA模型

ARIMA模型是ARMA模型的延伸。从名字上就可以看出，延伸的地方是“I”，这代表的是差分过程“Integrated”。下面将对差分过程（I）进行详细解释。

差分的本质

差分实际上是一种数据预处理手段，目的是将不平稳的时间序列变得平稳。使得差分后的时间序列符合ARMA模型平稳性的假设，方便使用ARMA模型进行预测。

差分过程

差分是一种数学操作，用于计算一组数值序列中相邻数据点的差值。在时间序列分析中，差分常用于将非平稳序列转化为平稳序列，也就是减小或消除时间序列的趋势和季节性变化。

当我们对一个序列进行差分运算，就意味着我们会计算该序列中的不同观测值之间的差异简单地说，如果我们有一个时间序列 $X_t$ ，那么该序列的一阶差分就可以定义为：
$\Delta X_t=X_t–X_{t-1}$
这样，我们得到一个新的时间序列，其每一个值都是原时间序列中相邻两个值的差。

除了上述的一阶差分外，也有二阶差分、三阶差分乃至任意正整数阶差分。以二阶差分为例，一个时间序列的二阶差分是它一阶差分的一阶差分。如果我们有一个时间序列 $X_t$ ，那么该序列的二阶差分就可以定义为：
$\begin{aligned} \Delta^2X_t=&\Delta X_t-\Delta X_{t-1}\\=&X_t-X_{t-1}-\left(X_{t-1}-X_{t-2}\right)\\=&X_t-2X_{t-1}+X_{t-2} \end{aligned}$

同理，一个时间序列的三阶差分是它二阶差分的一阶差分。依次类推，我们就可以得到任意正整数阶的差分。

ARIMA（p，d，q）模型

ARIMA（p，d，q）模型是AR模型，差分I和MA模型的组合，具体形式如下：
${\Delta^dX}_t=c+\epsilon_t+\sum_{i=1}^{p}{\phi_i{\Delta^dX}_{t-i}}+\sum_{j=1}^{q}{\theta_j\epsilon_{t-j}}$
其中 $\Delta^dX_t$ 和 $\Delta^dX_{t-i},i=1,2,\ldots,p$ 是 $X_t$ 和 $X_{t-i},i=1,2,p$ 的 $d$ 阶差分； $c$ 是一个常数项； $\epsilon_t,\epsilon_{t-1},\ldots,\epsilon_{t-q}$ 为误差项，是白噪声； $\phi_1,\ldots,\phi_p$ 为AR§模型的参数，这些参数用来描述当前值与过去 $p$ 个时间点值之间的关系； $\theta_1,\ldots,\theta_q$ 为MA(q)模型的参数，这些参数用来描述当前值与过去 $q$ 个时间点的误差之间的关系。

1.2.3 Seasonal ARIMA模型

Seasonal ARIMA模型（简称：SARIMA模型）是ARIMA模型的延伸。可以处理带有季节性特征的时间序列数据。为方便介绍SARIMA模型，现在先开展一些准备工作。

1.2.3.1 准备工作

差分的滞后
在ARIMA模型中，差分过程主要介绍的是差分的阶数（order），如一阶、二阶等。在SARIMA模型中，将要加入另一个对差分过程有影响的数，称为滞后（lag）。先举一个简单的例子，假设 $X_t$ 是一个时间序列数据， $X_a$ 的s期滞后就是相对于当期a时刻的数据 $X_a$ ，其前s时刻的数据 $X_{a-s}$ ；即 $X_a$ 的s期滞后是 $X_{a-s}$ 。

既然知道了什么是滞后，那么接下来我们引入滞后差分。

以ARIMA模型中的一阶差分为例，
$\Delta X_t=X_t–X_{t-1}$
从滞后的角度来说，一阶差分也称为一步差分，因为 $\Delta X_t$ 是用当期 $X_t$ 减去它的一期滞后 $X_{t-1}$ 。

如果令滞后阶数为“2”，则上述的一步差分就变成二步差分：
$\Delta_2X_t=X_t-X_{t-2}$
显而易见的，我们可以推广到任意正整数s的s步差分：
$\Delta_sX_t=X_t-X_{t-s}$
由此我们得到了s步差分的时间序列。

接下来，我们将差分的阶数（order）和差分的滞后（lag）结合起来。

为便于理解，我们先举一个例子：

时间序列 $X_t$ 阶数为2，滞后为2的差分如下
$\Delta_2^2X_t=\Delta_2\left(\Delta_2X_t\right)=\Delta_2X_t-\Delta_2X_{t-2}$
则时间序列 $X_t$ 阶数为d，滞后为s的差分如下
$\Delta_s^dX_t=\Delta_s^{d-1}X_t-\Delta_s^{d-1}X_{t-s}$

算子符号

为了更加方便体现由ARIMA模型到SARIMA模型的推导，我们引入算子符号L，它用乘法的方式表示数据滞后的期数。

先举一个例子方便理解：
$X_{t-1}=LX_t$
即 $X_t$ 的一期滞后，就是 $L$ 乘以 $X_t$ 。

那么二期滞后呢？
$X_{t-2}=LX_{t-1}=LLX_t=L^2X_t$
继而我们可以得到任意阶的滞后 $X_{t-s}$ 的算子符号形式为 $L^sX_t$ 。

算子符号与差分过程

现在我们将算子符号带入差分过程中，看看结果是怎么样的。

首先是差分的滞后（lag）：
$\Delta_sX_t=X_t-X_{t-s}=X_t-L^sX_t=\left(1-L^s\right)X_t$
然后是差分的阶数（order）：

这里我们用归纳法进行说明，一阶差分可以表示为：
$\Delta X_t=X_t-X_{t-1}=X_t-LX_t=\left(1-L\right)X_t$
二阶差分可以表示为：
$\begin{aligned} \Delta^2X_t &=\Delta X_t-\Delta X_{t-1}\\ &=\left(1-L\right)X_t-\left(1-L\right)X_{t-1}\\ &=\left(1-L\right)X_t-L\left(1-L\right)X_t\\ &=\left(1-L\right)^2X_t \end{aligned}$
现在假设对于任意的正整数 $n$ ，有 $\Delta^nX_t=\left(1-L\right)^nX_t$ 成立，现在验证 $\Delta^{n+1}X_t=\left(1-L\right)^{n+1}X_t$ 是否成立：
$\begin{aligned} \Delta^{n+1}X_t &=\Delta^nX_t-\Delta^nX_{t-1}\\ &=\left(1-L\right)^nX_t-\left(1-L\right)^nX_{t-1}\\ &=\left(1-L\right)^nX_t-L\left(1-L\right)^nX_t\\ &=\left(1-L\right)^{n+1}X_t \end{aligned}$
证毕。

同样可以用归纳法证明阶数为 $d$ ，滞后为 $s$ 的差分为：
$\Delta_s^dX_t=\left(1-L^s\right)^dX_t$

算子符号与AR模型、MA模型、ARMA模型、ARIMA模型

现在我们将算子符号带入AR模型、MA模型、ARMA模型、ARIMA模型中，看看结果是怎么样的。

AR模型的原始形式是：

$X_t=c+\sum_{i=1}^{p}{\phi_iX_{t-i}}+\epsilon_t$

将上述差分的算子形式带入得：

$X_t=c+\sum_{i=1}^{p}{\phi_iL^iX_t}+\epsilon_t$

合并同类项得：

$\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)X_t=c+\epsilon_t$

MA模型的原始形式是：

$X_t=\mu+\epsilon_t+\sum_{i=1}^{q}{\theta_i\epsilon_{t-i}}$

将上述差分的算子形式带入得：

$X_t=\mu+\epsilon_t+\sum_{i=1}^{q}{\theta_iL^i\epsilon_t}$

合并同类项得：

$X_t=\mu+\left(1+\sum_{i=1}^{q}{\theta_iL^i}\right)\epsilon_t$

ARMA模型的原始形式是：

$X_t=c+\epsilon_t+\sum_{i=1}^{p}{\phi_iX_{t-i}}+\sum_{j=1}^{q}\theta_j\epsilon_{t-j}$

将上述差分的算子形式带入得：

$X_t=c+\epsilon_t+\sum_{i=1}^{p}{\phi_iL^iX_t}+\sum_{j=1}^{q}{\theta_jL^j\epsilon_t}$

合并同类项得：

$\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)X_t=c+\left(1+\sum_{j=1}^{q}{\theta_jL^j}\right)\epsilon_t$

ARIMA模型的原始形式是：
$\Delta^dX_t=c+\epsilon_t+\sum_{i=1}^{p}{\phi_i\Delta^dX_{t-i}}+\sum_{j=1}^{q}{\theta_j\epsilon_{t-j}}$
将上述差分的算子形式带入得：
$\left(1-L\right)^dX_t=c+\epsilon_t+\sum_{i=1}^{p}{\phi_i\left(1-L\right)^dL^iX_t}+\sum_{j=1}^{q}{\theta_jL^j\epsilon_t}$
合并同类项得：
$\left(1-L\right)^d\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)X_t=c+\left(1+\sum_{j=1}^{q}\theta_jL^j\right)\epsilon_t$

1.2.3.2 SARIMA(p,d,q)(P,D,Q)s模型

经过上面漫长的准备工作，我们终于到来了推导SARIMA模型的时刻。

SARIMA模型实际上是季节性模型和ARIMA模型的混合，因此我们先来介绍季节性模型。

季节差分

回顾上面差分的本质：“差分实际上是一种数据预处理手段，目的是将不平稳的时间序列变得平稳”。

现在假设时间序列 $X_t$ 具有季节性变动规律，即 $X_t$ 随着季节变动呈现周期性的变动；具体而言，就是时间间隔为一定值的数据具有相似之处；这里不妨假设这个“一定值”为s，同时称s为 $X_t$ 的变化周期。

为了消除这个季节变动带来的影响，我们引入季节差分：
$\Delta_sX_t=X_t-X_{t-s}$
也就是s步差分（lag）。

其算子表达形式为：
$\Delta_sX_t=\left(1-L^s\right)X_t$

纯季节性模型（pure seasonal models）

下面将从AR( p )模型、MA(q)模型、ARMA(p,q)模型和ARIMA(p,d,q)模型进行推广，得到纯季节性的AR( P )s模型、MA(Q)s模型、ARMA(P,Q)s模型和ARIMA(P,D,Q)s模型。

由AR（p）模型到AR（P）s模型

AR( p )模型的意义是自己对过去的自己回归，那么AR( P )s同理，也是自己对过去的自己进行回归。对于一个具有季节变动规律的时间序列数据 $X_t$ 而言，当下的自己是 $X_t$ ，那么过去的自己是谁呢？由于季节性因素带来的影响，过去的自己已经不再是 $X_{t-1}$ 了，而应该是过去位于同一季节下的 $X_{t-s}$ 。所谓“今人不见古时月，今月曾经照古人”正是如此——两个无法“相见”的数据，通过季节因素串联了起来。

由此，我们就很容易得到AR( P )s模型的形式为：
$X_t=C+\sum_{i=1}^{P}{\Phi_iX_{t-si}}+u_t$
写成算子形式，并合并同类项得：
$\left(1-\sum_{i=1}^{p}\Phi_iL^{si}\right)X_t=C+u_t$

由MA(q)模型到MA(Q)s模型

同理，我们也很容易得到MA(Q)s模型的形式为：
$X_t=\mu+u_t+\sum_{i=1}^{Q}\Theta_iu_{t-si}$
写成算子形式，并合并同类项得：
$X_t=\mu+\left(1+\sum_{i=1}^{Q}{\Theta_iL^{si}}\right)u_t$

由ARMA(p,q)模型到ARMA(P,Q)s模型

同理，我们也很容易得到ARMA(P,Q)s模型的形式为：
$X_t=C+u_t+\sum_{i=1}^{P}{\Phi_iX_{t-si}}+\sum_{j=1}^{Q}\Theta_ju_{t-sj}$
写成算子形式，并合并同类项得：
$\left(1-\sum_{i=1}^{P}{\Phi_iL^{si}}\right)X_t=C+\left(1+\sum_{j=1}^{Q}{\Theta_jL^{sj}}\right)u_t$

由ARIMA(p,d,q)模型到ARIMA(P,D,Q)s模型

ARIMA(p,d,q)模型是由ARMA(p,q)模型加上差分过程得到的，同样的，ARIMA(P,D,Q)s模型是由ARMA(P,Q)s模型加上季节差分过程得到的。由ARIMA(p,d,q)模型的原始形式：
$\Delta^dX_t=c+\epsilon_t+\sum_{i=1}^{p}{\phi_i\Delta^dX_{t-i}}+\sum_{j=1}^{q}{\theta_j\epsilon_{t-j}}$
我们可以得到ARIMA(P,D,Q)s模型的形式：
$\Delta_s^DX_t=C+u_t+\sum_{i=1}^{P}{\Phi_i\Delta_s^DX_{t-si}}+\sum_{j=1}^{Q}{\Theta_ju_{t-sj}}$
写成算子形式为：
$\left(1-L^s\right)^DX_t=C+u_t+\sum_{i=1}^{P}{\Phi_iL^{si}\left(1-L^s\right)^D}X_t+\sum_{j=1}^{Q}{\Theta_jL^{sj}u_t}$
合并同类项得：
$\left(1-\sum_{i=1}^{P}{\Phi_iL^{si}}\right){\left(1-L^s\right)^DX}_t=C+\left(1+\sum_{i=1}^{Q}{\Theta_jL^{sj}}\right)u_t$

SARIMA(p,d,q)(P,D,Q)s模型

SARIMA(p,d,q)(P,D,Q)s模型实际上是一个混合模型，是由ARIMA(p,d,q)模型和ARIMA(P,D,Q)s模型混合得到的。下面将详细讲述混合的过程。

我们有ARIMA(P,D,Q)s模型的形式：
$\left(1-\sum_{i=1}^{P}{\Phi_iL^{si}}\right)\left(1-L^s\right)^DX_t=C+\left(1+\sum_{i=1}^{Q}{\Theta_jL^{sj}}\right)u_t$
根据ARIMA(p,d,q)模型的假设， $u_t$ 应该是一个白噪声。

同理，上面ARIMA(P,D,Q)s模型中的 $u_t$ 也应该是一个白噪声。

但如果 $u_t$ 不是白燥声呢？那么我们使用ARIMA(p,d,q)模型来估计它：
$\left(1-L\right)^d\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)u_t=c+\left(1+\sum_{j=1}^{q}\theta_jL^j\right)\epsilon_t$
这里的 $\epsilon_t$ 为白噪声，否则递归进行估计的话，就是“子子孙孙无穷尽”了。

将ARIMA(P,D,Q)s模型左右同乘 $\left(1-L\right)^d\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)$ ，并带入 $u_t$ 的ARIMA估计得：
$\left(1-L\right)^d\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)\left(1-\sum_{i=1}^{P}{\Phi_iL^{si}}\right)\left(1-L^s\right)^DX_t= \left(1-L\right)^d\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)C+\left(1+\sum_{i=1}^{Q}{\Theta_jL^{sj}}\right)c+ \left(1+\sum_{i=1}^{Q}{\Theta_jL^{sj}}\right)\left(1+\sum_{j=1}^{q}\theta_jL^j\right)\epsilon_t$
注意， $C$ 和 $c$ 是常数，对它进行差分的结果为0，那么 $\left(1-L\right)^d\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)C$ 项最终为0， $\left(1+\sum_{i=1}^{Q}{\Theta_jL^{sj}}\right)c$ 项只剩一个c，则最终结果为：
$\left(1-L\right)^d\left(1-\sum_{i=1}^{p}{\phi_iL^i}\right)\left(1-\sum_{i=1}^{P}{\Phi_iL^{si}}\right)\left(1-L^s\right)^DX_t= c+\left(1+\sum_{i=1}^{Q}{\Theta_jL^{sj}}\right)\left(1+\sum_{j=1}^{q}\theta_jL^j\right)\epsilon_t$
$c$ 为常数， $\epsilon_t$ 为白噪声。

上式即为SARIMA(p,d,q)(P,D,Q)s模型。

1.2.4 ARCH模型和GARCH模型

通常认为，横截面数据容易存在异方差，而时间序列数据常存在自相关。然和，Engle（1982）指出，时间序列数据也存在一种特殊的异方差，即“自回归条件异方差”（Autoregressive conditional heteroskedasticity model，简记为ARCH）。Bollerslve（1986）对ARCH进行了推广，被称为“Generalized ARCH”，简记为GARCH。

美国道琼斯股指1953——1990的日收益率

从上图可以看出，股指日收益率在某一段时间内剧烈波动，而在另一段时间内又风平浪静。从理论上，这可以抽象为，当本期或过去若干其的波动（方差）较大时，未来几期的波动（方差）很可能也较大；反之亦然。换言之，方差大的观测值似乎聚集在一起，而方差小的观测值似乎也聚集在一期。这被称为“波动性聚集”（volatility clustering）或“扎堆”。

ARCH（p）模型

考虑AR(1)回归模型（以下讨论适用于任何ADL模型见附录）：
$y_t=\beta_0+\beta_1y_{t-1}+\epsilon_t$
记扰动项 $\epsilon_t$ 的条件方差为 $\sigma_t^2=Var\left(\epsilon_t\middle|\epsilon_{t-1},\ldots\right)$ ，其中 $\sigma_t^2$ 的下标 $t$ 表示条件方差可以随时间而变。收到波动性聚集现象的启发，假设 $\sigma_t^2$ 取决于上一期扰动项的平方：
$\sigma_t^2=\alpha_0+\alpha_1\epsilon_{t-1}^2$
这就是“ARCH（1）扰动项”。更一般的，假设 $\sigma_t^2$ 依赖于前 $p$ 期扰动项的平方：
$\sigma_t^2=\alpha_0+\alpha_1\epsilon_{t-1}^2+\ldots+\alpha_p\epsilon_{t-p}^2$
这就是“ARCH（p）扰动项”。

不失一般性见下方，以ARCH（1）为例来考察ARCH扰动项的性质。假设扰动项 $\epsilon_t$ 的生成过程为
$\epsilon_t=v_t\sqrt{\alpha_0+\alpha_1\epsilon_{t-1}^2}$
其中， $v_t$ 为白噪声，并将其方差标准化为1，即 $Var\left(v_t\right)=E\left(v_t^2\right)=1$ 。假定 $v_t$ 和 $\epsilon_{t-1}$ 相互独立，而且 $\alpha_0>0，0<\alpha_1<1$ （为了保证 $\sigma_t^2$ 为正，且 $\{\epsilon_t\}$ 为平稳过程）。

下面不加证明的，列举序列 $\{\epsilon_t\}$ 的性质：

$\epsilon_t$ 的条件期望为 $E\left(\epsilon_t\middle|\epsilon_{t-1}\right)=0$ ；
$\epsilon_t$ 的无条件期望为 $E\left(\epsilon_t\right)=0$ ；
$\epsilon_t$ 的条件方差为 $Var\left(\epsilon_t\middle|\epsilon_{t-1}\right)=\alpha_0+\alpha_1\epsilon_{t-1}^2$ ，这也是ARCH(1)的定义;
$\epsilon_t$ 的无条件方差为 $Var\left(\epsilon_t\right)=\alpha_0+\alpha_1E\left(\epsilon_{t-1}^2\right)$ ，为常数,不随时间变化;
$\epsilon_t$ 和 $\epsilon_{t-i}\left(i\neq0\right)$ 的序列相关性 $E\left(\epsilon_t\epsilon_{t-i}\right)=0$

从上面性质可以看出，扰动项 $\{\epsilon_t\}$ 满足高斯-马尔可夫模型关于“零均值”、“同方差”和“无自相关”的假设。事实上，虽然 $\{\epsilon_t\}$ 存在条件异方差，却是白噪声。因此，高斯-马尔可夫定理成立，OLS是最佳线性无偏估计。然而，OLS忽略了条件异方差这一重要信息。如果跳出线性估计的范围，则可以找到更优的非线性估计，即最大似然估计，这里不再说明。

GARCH（p，q）模型
在ARCH( p )模型中，如果p很大，则要估计很多参数，会损失样本容量。Bollerslev（1986）提出GARCH，使得待估计参数减少，而对未来条件方差的预测更加准确。其基本思想是，在ARCH模型的基础上，再加上 $\sigma_t^2$ 的自回归部分，即 $\{\sigma_{t-1}^2,\ldots,\sigma_{t-p}^2\}$ 。

GARCH（p，q）的模型设定为
$\sigma_t^2=\alpha_0+\alpha_1\epsilon_{t-1}^2+\ldots+\alpha_q\epsilon_{t-q}^2+\gamma_1\sigma_{t-1}^2+\ldots+\gamma_p\sigma_{t-p}^2$

其中， $p$ 为 $\sigma_t^2$ 的自回归阶数，而 $q$ 为 $\epsilon_t^2$ 的滞后阶数。一般称 $\epsilon_{t-i}^2$ 为“ARCH项”，而称 $\sigma_{t-i}^2$ 为“GARCH项”。

假定扰动项 $\epsilon_t$ 的生成过程为
$\epsilon_t=v_t\sqrt{\alpha_0+\alpha_1\epsilon_{t-1}^2+\ldots+\alpha_q\epsilon_{t-q}^2+\gamma_1\sigma_{t-1}^2+\ldots+\gamma_p\sigma_{t-p}^2}$
其中， $v_t$ 为白噪声。

最常用的GARCH模型为GARCH（1，1）
$\sigma_t^2=\alpha_0+\alpha_1\epsilon_{t-1}^2+\gamma_1\sigma_{t-1}^2$
GARCH（1，1）扰动项 $\epsilon_t$ 的生成过程为
$\epsilon_t=v_t\sqrt{\alpha_0+\alpha_1\epsilon_{t-1}^2+\gamma_1\sigma_{t-1}^2}$
其中， $v_t$ 为白噪声， $\alpha_1+\gamma_1<1，\alpha_0,\alpha_1,\gamma_1\geq0$ 。

其他模型见附录。

为何使用GARCH模型能节省待估参数？直观来说，因为 $\sigma_{t-1}^2$ 中已经包含了 $\{\epsilon_{t-2}^2,\ldots,\epsilon_{t-p-1}^2\}$ 的信息。

比如，对GARCH（1，1）使用迭代法可得

$\begin{aligned} \sigma_t^2 &=\alpha_0+\alpha_1\epsilon_{t-1}^2+\gamma_1\sigma_{t-1}^2\\ &=\alpha_0+\alpha_1\epsilon_{t-1}^2+\gamma_1\left(\alpha_0+\alpha_1\epsilon_{t-2}^2+\gamma_1\sigma_{t-2}^2\right)\\ &=\alpha_0+\alpha_0\gamma_1+\alpha_1\epsilon_{t-1}^2+\alpha_0\gamma_1\epsilon_{t-2}^2+\gamma_1^2\sigma_{t-2}^2\\ &=\ldots\\ &=\alpha_0\left(1+\gamma_1+\gamma_1^2+\ldots\right)+\alpha_1\left(\epsilon_{t-1}^2+\gamma_1\epsilon_{t-2}^2+\gamma_1^2\epsilon_{t-3}^2+\ldots\right)\\ &=\frac{\alpha_0}{1-\gamma_1}+\alpha_1\left(\epsilon_{t-1}^2+\gamma_1\epsilon_{t-2}^2+\gamma_1^2\epsilon_{t-3}^2+\ldots\right) \end{aligned}$
由此可见，在某种意义上，GARCH（1，1）等价于无穷阶ARCH模型。因此，如果将 $\sigma_{t-1}^2$ 作为自变量引入，常可把高阶ARCH（p）模型简化为GARCH（1，1）。若要取得比OLS更好的非线性估计，对GARCH模型可同样作最大似然估计。

2. 总结

任何时间序列都可以由一个均值模型和一个残差模型所组成。SARIMA模型及其附属模型属于均值模型，它认为残差是一个白噪声，所以不对残差进行建模。ARCH模型和GARCH模型属于残差模型，它认为均值是一个常数，所以就集中在残差上建模。

实际过程中，我们通常将ARIMA模型和ARCH类模型结合，即所谓的ARMA-ARCH模型，就是分别对均值和残差建模，使得均值满足ARMA模型，残差满足GARCH模型。

3.引用

时间序列（按照时间排序的一组随机变量）_百度百科https://baike.baidu.com/item/%E6%97%B6%E9%97%B4%E5%BA%8F%E5%88%97/1389644

时间序列分解 https://www.jianshu.com/p/e6d286132690

时间序列模型(四)：ARIMA模型 - 算法小陈的文章 - 知乎https://zhuanlan.zhihu.com/p/634120397

【新书节选】季节性时间序列模型 SARIMA 及 R 实现 - 张敬信的文章 - 知乎https://zhuanlan.zhihu.com/p/483565592

时间序列笔记-季节性ARIMA模型（一）https://www.jianshu.com/p/413c094e46f6

高级计量经济学及Stata应用 / 陈强编著. –北京：高等教育出版社, 2010. 10 ISBN 978 – 7 – 04 – 030181 – 6

4. 附录

4.1 ADL模型

ADL（Autoregressive Distributed Lag）模型是一种用于分析时间序列数据和估计因果关系的统计模型。这模型主要用于经济学和社会科学领域，以探讨因果关系的短期和长期效应。ADL模型的核心思想是将滞后值（lagged values）引入回归模型，以分析短期和长期的影响。

ADL模型的一般形式如下：
$Y_t=\beta_0+\sum_{i=1}^{k}{\beta_iX_{t-i}}+\sum_{j=1}^{p}{\alpha_jY_{t-j}}+\epsilon_t$
其中 $Y_t$ 是因变量；

$X_{t-1},\ldots,X_{t-k}$ 是自变量的滞后值，用来表示独立变量的短期影响；
$Y_{t-1},\ldots,Y_{t-p}$ 是因变量的滞后值，用来表示因变量的长期影响；
$\beta_1,\ldots,\beta_k和\alpha_1,\ldots,\alpha_p$ 是回归系数，表示自变量和因变量的影响；
$\epsilon_t$ 是误差项，代表模型未能捕捉的随机误差。

ADL模型允许分析因变量与滞后自变量之间的动态关系，包括短期和长期关系。通过估计不同滞后期的系数，可以识别因果关系的时滞效应，以及不同时间尺度上的因果关系。

4.2 ARCH（p）扰动项的生成过程

$\epsilon_t=v_t\sqrt{\alpha_0+\sum_{i=1}^{q}{\alpha_i\epsilon_{t-I}^2}}$
其中 $\alpha_0>0,\alpha_i\geq0\left(i=1,2,\ldots,q\right)$ ；
$\alpha_1+\alpha_2+\ldots+\alpha_q<1$ ；
$v_t$ 为白噪声，并将其方差标准化为1，即 $Var\left(v_t\right)=E\left(v_t^2\right)=1$ ，并假定 $v_t$ 和 $\epsilon_{t-1}$ 相互独立。

4.3 GARCH（p，q）扰动项的生成过程

$\epsilon_t=v_t\sqrt{h_t}$
其中 $h_t=\alpha_0+\sum_{j=1}^{p}{\beta_jh_{t-j}}+\sum_{i=1}^{q}{\alpha_i\epsilon_{t-i}^2}$ ；
$\sum_{i=1}^{q}\alpha_i+\sum_{j=1}^{p}\beta_j<1$ ；
$\alpha_0>0,\alpha_i\geq0\left(i=1,2,\ldots,q\right),\beta_j\geq0\left(j=1,2,\ldots,p\right)$ ；
$v_t$ 为白噪声，并将其方差标准化为1，即 $Var\left(v_t\right)=E\left(v_t^2\right)=1$ ，并假定 $v_t$ 和 $\epsilon_{t-1}$ 相互独立。