金融计量模型（七）：线性时间序列模型——单变量时间序列

最新推荐文章于 2024-08-21 09:05:08 发布

梅九九

最新推荐文章于 2024-08-21 09:05:08 发布

阅读量4k

点赞数 4

分类专栏：金融计量模型

本文链接：https://blog.csdn.net/qq_52737544/article/details/117004296

版权

金融计量模型专栏收录该内容

11 篇文章 73 订阅

订阅专栏

线性时间序列模型——单变量时间序列

平稳性

平稳性是时间序列分析的基础。

严平稳

严平稳：分布是时不变的，即对所有的 $t$ ，任意正整数 $k$ 和任意 $k$ 个正整数 $(t_1,\cdots,t_k)$ ， $(r_{t_1},\cdots,r_{t_k})$ 的联合分布与 $(r_{t_1+t},\cdots,r_{t_k+t})$ 的联合分布是相同的。

弱平稳

弱平稳：前两个矩是时不变的， $r_t$ 的均值与 $r_t$ 和 $r_{t-l}$ 的协方差不随时间改变，其中 $l$ 是任意整数。

对所有的 $t$ ， $E(r_t)=\mu$ ， $\mu$ 为一个常数。
对所有的 $t$ ， $Var(r_t)=E[(r_t-\mu)^2]=\sigma^2$ 。
对所有的 $t$ ， $\gamma_k=cov(r_t,r_{t-k})=E[(r_t-\mu)(r_{t-k}-\mu)]$ ， $\gamma_k$ 只依赖于 $k$ 。 $\gamma_0=Var(r_t),\gamma_{-l}=\gamma_l$ 。

实际中，假定我们有 $T$ 个数据观测点 $\{r_t|t=1,\cdots,T\}$ ，弱平稳性意味着数据的时间图显示 $T$ 个值在一个常数水平上下以相同的幅度波动。

自相关函数（ACF）

$\rho_k=\frac{Cov(r_t,r_{t-k})}{Var(r_t)}=\frac{\gamma_k}{\gamma_0}\\\rho_0=1,\rho_k=\rho_{-k},k\neq0,-1\leq \rho_k\leq1$

考虑一个给定的收益率样本 $\{r_t\}^T_{t=1}$ ， $\bar{r}$ 是样本均值：
$\hat\rho_k=\frac{\sum_{t=k+1}^T(r_t-\bar{r})(r_{t-k}-\bar{r})}{\sum^T_{t=1}(r_t-\bar{r})^2},0\leq k< T-1$
事实上，线性时间序列模型可以用其ACF来表征。

若 ${r_t\}$ 是一个独立同分布序列，满足 $E(r_t^2)<\infin$ ，则对任意固定的正整数 $l$ ， $\hat\rho_l$ 渐进服从均值为0，方差为 $1 / T$ 的正态分布。

若 ${r_t\}$ 是一个弱平稳序列，满足 $r_t=\mu+\sum_{i=0}^q\psi_ia_{t-i},\psi_0=1$ ， ${a_j\}$ 是均值为0的独立同分布任意变量的序列，则对 $l > q$ ， $\hat\rho_l$ 渐近地服从均值为0、方差为 $(1+2\sum_{i=1}^q\rho_i^2)/T$ 的正态分布。

检验单个ACF

对一个给定的正整数，可进行检验 $H$ ，检验统计量为：
$t\ ratio=\frac{\hat\rho_l}{\sqrt{(1+2\sum_{i=1}^{l-1}\rho_i^2)/T}}$
如果 ${r_t\}$ 是一个平稳高斯序列且满足当 $j > l$ 时 $\rho_l=0$ ，则 $t\ ratio$ 渐进服从均值为0、方差为 $(1+2\sum_{i=1}^{l-1}\rho_i^2)/T$ 的正态分布， $t\ ratio$ 渐进服从标准正态分布。

当 $|t\ ratio|>Z_{\alpha/2}$ 时拒绝 $H_0$ ，其中 $Z_{\alpha/2}$ 是标准正态分布的 $100(1-\alpha/2)$ 分位点。

联合检验

$H_0:\rho_1=\cdots=\rho_m=0$ ； $H_a:$ 对某 $i\in\{1,\cdots,m\},\rho_i\neq0$ 。
$Q(m)=T(T+2)\sum_{l=1}^m\frac{\hat\rho_l^2}{T-l}$
在 ${r_t\}$ 为满足一定矩条件的独立同分布序列的假定下， $Q (m)$ 渐近服从自由度为 $m$ 的 $\chi^2$ 分布。 $Q(m)\to\chi_m^2$

决策规则：当 $Q(m)>\chi_{\alpha}^2$ 时拒绝 $H_0$ ，其中 $\chi_{\alpha}^2$ 是自由度为 $m$ 的 $\chi^2$ 分布的 $100(1-\alpha)$ 分位点。

白噪声

$\{\varepsilon_t\}$ 为白噪声：
$E(\varepsilon_t)=0\\E(\varepsilon_t^2)=\sigma^2\\E(\varepsilon_t\varepsilon_{\tau})=0,t\neq\tau$
此外，如果 $\{\varepsilon_t\}$ 随时间的变化是独立的，则称为独立白噪声。

进一步，如果 $\{\varepsilon_t\}\sim N(0,\sigma^2)$ ，则称为高斯白噪声。

线性时间序列

在时间点 $t$ ：

信息集： $\{r_1,r_2,\cdots,r_{t-1}\}\equiv\digamma_{t-1}$
$r_t=conditional \ mean + shock=function \ of \ elements \ of \ \digamma_{t-1}+a_t$

给定信息 $\digamma_{t-1}$ ：
$r_t=\mu_t+a_t=E(r_t|\digamma_{t-1})+\sigma_t\varepsilon_t$
$\mu_t$ ： $r_t$ 的条件均值。

$a_t$ ：时刻 $t$ 的新息或扰动。

$\varepsilon_t$ ：独立同分布，均值为0，方差为1。

$\sigma_t$ ：条件标准误差（波动率）。

在拟合线性时间序列模型之前，我们要测试 $\mu_t$ 是否是固定的常数（或： ${r_t\}$ 是否是白噪声），检验方法见上。

如果白噪声假设不被拒绝，则不需要线性时间序列模型！如果白噪声假设被拒绝，我们需要一个线性时间序列模型！

${r_t\}$ 称为线性序列，如果它能写成：
$r_t=\mu+\sum_{i=0}^{\infin}\psi_ia_{t-i}$
其中 $\mu$ 是 $r_t$ 的均值， $\psi_0=1$ ， ${a_t\}$ 是零均值独立同分布的随机变量序列（即为白噪声）。
$E(r_t)=\mu,Var(r_t)=\sigma_a^2\sum_{i=0}^{\infin}\psi_i^2$
其中 $\sigma_a^2$ 是 $a_t$ 的方差， $\{\psi_i^2\}$ 必须是收敛序列，即当 $i\to\infin,\psi_i^2\to0$ 。
$r_l=Cov(r_t,r_{t-l})=E[(\sum_{i=0}^{\infin}\psi_ia_{t-i})(\sum_{j=0}^{\infin}\psi_ja_{t-l-j})]\\=E(\sum_{i,j=0}^{\infin}\psi_i\psi_ja_{t-i}a_{t-l-j})\\=\sum_{j=0}^{\infin}\psi_{j+l}\psi_jE(a_{t-l-j}^2)\\=\sigma_a^2\sum_{j=0}^{\infin}\psi_j\psi_{j+l}$
于是有
$\rho_l=\frac{r_l}{r_0}=\frac{\sum_{i=0}^{\infin}\psi_i\psi_{i+l}}{\sum_{i=0}^{\infin}\psi_i^2}=\frac{\sum_{i=0}^{\infin}\psi_i\psi_{i+l}}{1+\sum_{i=1}^{\infin}\psi_i^2},l\geq0$

AR模型

AR(1)

$r_t=\phi_0+\phi_1r_{t-1}+a_t$

${a_t\}$ 是均值为0、方差为 $\sigma_a^2$ 的白噪声序列。

通过递推可得： $r_t=\phi_0\sum_{i=0}^{t-1}\phi_1^i+\phi_i^tr_0+\sum_{i=0}^{t-1}\phi_1^ia_{t-i}$ 。

若 $\phi_1=1$ ： $r_t=t\phi_0+r_0+\sum_{i=0}^{t-1}a_{t-i}$

若 $|\phi_1|<1$ ：
$t\to\infin,r_t\to\frac{\phi_0}{1-\phi_1}+\sum_{i=0}^{\infin}\phi_1^ia_{t-i},E(r_t)=\frac{\phi_0}{1-\phi_1}=\mu\to\phi_0=\mu(1-\phi_1)\to r_t-\mu=\phi_1(r_{t-1}-\mu)+a_t$
模型是弱平稳的充分必要条件是： $|\phi_1|<1$ 。

方差：
$r_t=\phi_0+\phi_1r_{t-1}+a_t\\Var(r_t)=\phi_1^2Var(r_{t-1})+Var(a_t)\\Var(r_t)=\frac{\sigma_a^2}{1-\phi_1^2}$
ACF与相关性：
$\gamma_1=Cov(r_t,r_{t-1})=Cov[\phi_0+\phi_1r_{t-1}+a_t,r_{t-1}]=\phi_1Var(r_{t-1})=\phi_1\gamma_0\\\gamma_k=\phi_1^k\gamma_0\\\rho_1=\phi_1,\rho_k=\phi_1^k$
如果是平稳的，ACF会随时间间隔增加呈指数形式减小。

预测：在时间点n： $\digamma_n=\{r_n,r_{n-1},\dots\}$ ，预测时间点n+l：
$\hat r_{n+l}=\arg\min_g E[(r_{n+l}-g)^2|\digamma_n]\\\hat r_{n+l}=E[r_{n+l}|\digamma_n]\\l=1:\hat r_{n+1}=E[r_{n+1}|\digamma_n]=E[\phi_0+\phi_1r_n+a_{n+1}|\digamma_n]=\phi_0+\phi_1r_n\\e_n(1)=r_{n+1}-\hat r_{n+1}=a_{n+1}\\Var(e_n(1))=Var(a_{n+1})=\sigma_a^2\\l=2:\hat r_{n+2}=E[r_{n+2}|\digamma_n]=E[\phi_0+\phi_1r_{n+1}+a_{n+2}|\digamma_n]\\=E[\phi_0+\phi_0\phi_1+\phi_1^2r_n+\phi_1a_{n+1}+a_{n+2}|\digamma_n]=\phi_0+\phi_0\phi_1+\phi_1^2r_n\\e_n(2)=r_{n+2}-\hat r_{n+2}=a_{n+2}+\phi_1a_{n+1}\\Var(e_n(2))=Var(a_{n+2}+\phi_1a_{n+1})=(1+\phi_1^2)\sigma_a^2$
对于一般的 $l$ ：
$\hat r_{n+l}=\phi_0\sum_{i=0}^{l-1}\phi_1^i+\phi_1^lr_n\\e_n(l)=\sum_{i=0}^{l-1}\phi_1^ia_{n+l-i}\\Var(e_n(l))=\sigma_a^2\sum_{i=0}^{l-1}\phi_1^{2i}$
特别的，当 $l\to\infin$ :
$\hat r_{n+l}\to\mu=\frac{\phi_0}{1-\phi_1}\\Var(e_n(\infin))=\frac{\sigma_a^2}{1-\phi_1^2}=Var(r_t)$
这种性质称为均值回转（mean-reversion）。

AR(2)

$r_t=\phi_0+\phi_1r_{t-1}+\phi_2r_{t-2}+a_t\to(1-\phi_1B-\phi_2B^2)r_t=\phi_0+a_t\\E(r_t)=\frac{\phi_0}{1-\phi_1-\phi_2}\\ACF:\rho_0=1,\rho_1=\frac{\phi_1}{1-\phi_2}\\\rho_k=\phi_1\rho_{k-1}+\phi_2\rho_{k-2},k\geq2$

平稳条件：使得方程 $1-\phi_1x-\phi_2x^2=0$ 的根都在单位圆外：
$\phi_1^2+4\phi_2>0\to x_1,x_2=\frac{\phi_1\pm\sqrt{\phi_1+4\phi_2}}{-2\phi_2}\\\phi_1^2+4\phi_2<0\to x_1,x_2=\frac{\phi_1\pm i\sqrt{\phi_1+4\phi_2}}{-2\phi_2}$
也即AR(2)模型的两个特征根 $|\omega_1|=|\frac{1}{x_1}|<1,|\omega_2|=|\frac{1}{x_2}|<1$

实值特征根：
$(1-\omega_1B)(1-\omega_2B)r_t=\phi_0+a_t\\r_t=b_0+\sum_{j=0}^{\infin}\alpha_ja_{t-j}+A_1\omega_1^t+A_2\omega_2^t$
虚值特征根：
$\omega_1,\omega_2=\sqrt{-\phi_2}(\frac{\phi_1}{2\sqrt{-\phi_2}}\pm\frac{\sqrt{-\phi_1^2-4\phi_2}}{2\sqrt{-\phi_2}}i)\\w_1=\gamma[\cos\theta+i\sin\theta],w_2=\gamma[\cos\theta-i\sin\theta],k=\frac{2\pi}{\theta},\theta=\arccos[\frac{\phi_1}{2\sqrt{-\phi_2}}]\\r_t=b_0+\sum_{j=0}^{\infin}\alpha_ja_{t-j}+\beta_1\gamma^t\cos(\theta t+\beta_2),\gamma=|w_i|$

AR§

$r_t=\phi_0+\phi_1r_{t-1}+\phi_2r_{t-2}+\cdots+\phi_pr_{t-p}+a_t\\(1-\phi_1B-\phi_2B^2-\cdots-\phi_pB^p)r_t=\phi_0+a_t\\E(r_t)=\frac{\phi_0}{1-\phi_1-\phi_2-\cdots-\phi_p}$

平稳条件：使得方程 $1-\phi_1x-\phi_2x^2-\cdots-\phi_px^p=0$ 的根都在单位圆外。

ACF满足：
$(1-\phi_1B-\phi_2B^2-\cdots-\phi_pB^p)p_l=0,l>0$

识别AR模型

用PACF

最小二乘估计如下模型：
$r_t=\phi_{0,1}+\phi_{1,1}r_{t-1}+e_{1t}\\r_t=\phi_{0,2}+\phi_{1,2}r_{t-1}+\phi_{2,2}r_{t-2}+e_{2t}\\r_t=\phi_{0,3}+\phi_{1,3}r_{t-1}+\phi_{2,3}r_{t-2}+\phi_{3,3}r_{t-3}+e_{3t}\\r_t=\phi_{0,4}+\phi_{1,4}r_{t-1}+\phi_{2,4}r_{t-2}+\phi_{3,4}r_{t-3}+\phi_{4,4}r_{t-4}+e_{4t}$
PACF即为 $\hat\phi_{p,p}$ 。

当样本容量 $T$ 趋于无穷时， $\hat\phi_{p,p}$ 收敛于 $\phi_p$ 。
对于 $l > p$ ， $\hat\phi_{l,l}$ 收敛于0。
对于 $l > p$ ， $\hat\phi_{l,l}$ 的渐进方差为 $1 / T$ 。 $\hat\phi_{l,l}\sim N(0,\frac{1}{T})$ 。

信息准则

$AIC(l)=\ln(\tilde\sigma_l^2)+\frac{2l}{T}\\BIC(l)=\ln(\tilde\sigma_l^2)+\frac{l\ln(T)}{T}\\HQIC(l)=\ln(\tilde\sigma_l^2)+\frac{2l\ln(\ln(T))}{T}$

前一项衡量的是模型拟合优度，后一项为惩罚函数。 $\tilde\sigma_l^2$ 是 $\sigma_a^2$ 的最大似然估计。

参数估计

在给定前 $p$ 个观测值的前提下，我们有
$r_t=\phi_0+\phi_1r_{t-1}+\cdots+\phi_pr_{t-p}+a_t,t=p+1,\cdots,T$
其中的参数可用最小二乘法估计，记 $\hat\phi_i$ 为 $\phi_i$ 的估计，所拟合的模型和对应的残差为
$\hat r_t=\hat\phi_0+\hat\phi_1r_{t-1}+\cdots+\hat\phi_pr_{t-p}\\\hat a_t=r_t-\hat r_t\\\hat\sigma_a^2=\frac{\sum_{t=p+1}^T\hat a_t^2}{T-2p-1}$

模型的检验

如果模型是充分的，则其残差序列应是白噪声。残差的样本自相关函数和Ljung-Box统计量可用来检验 $\hat a_t$ 与一个白噪声的接近程度。

对 AR§ 模型，Ljung-Box统计量 $Q (m)$ 渐进服从自由度为 $m - p$ 的 $\chi^2$ 分布，其中 $p$ 是所用模型中AR系数的个数。如果常数项被包括进来，则自由度为 $m - p - 1$ 。

MA模型

MA(1)

$r_t=\mu+a_t-\theta a_{t-1},r_{t-1}=\mu+a_{t-1}-\theta a_{t-2}\\E(r_t)=\mu\\Var(r_t)=(1+\theta^2)\sigma_a^2\\Cov(r_t,r_{t-1})=-\theta\sigma_a^2\\Cov(r_t,r_{t-l})=0,l>1$

MA模型总是弱平稳的。

ACF：
$\rho_1=\frac{-\theta}{1+\theta^2}\\p_l=0,l>1$
ACF是识别一个MA模型的阶的有用工具。

预测：在时间点n： $\digamma_n=\{r_n,r_{n-1},\dots\}$ ，预测时间点n+l：
$l=1:\hat r_{n+1}=E(r_{n+1}|\digamma_n)=E(\mu+a_{n+1}-\theta a_n|\digamma_n)=\mu-\theta a_n\\e_n(1)=a_{n+1}\\Var(e_n(1))=Var(a_{n+1})=\sigma_a^2$
多步预测：
$\hat r_{n+l}=\mu,l\geq2\\e_n(l)=a_{n+l}-\theta a_{n+l-1}\\Var(e_n(l))=Var(a_{n+l}-\theta a_{n+l-1})=(1+\theta^2)\sigma_a^2$
可逆性：零均值MA(1)模型：
$r_t=a_t-\theta a_{t-1},a_t\sim N(0,\sigma^2),i.i.d,a_0=0\\a_t=r_t+\theta a_{t-1}=r_t+\theta(r_{t-1}+\theta a_{t-2})=r_t+\theta r_{t-1}+\theta^2(r_{t-2}+\theta a_{t-3})=\cdots=\sum_{i=0}^{t-1}\theta^ir_{t-i}\\r_t=a_t-\sum_{i=1}^{t-1}\theta^ir_{t-i}$
可逆性条件： $|\theta|<1$ 。

$\{r_1,r_2,\cdots,r_{T-1},r_T\}$ 的对数极大似然：
$\{a_t\}^T_{t=1},i.i.d,N(0,\sigma^2)\\\prod_{t=1}^T\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{a_t^2}{2\sigma^2})=\prod_{t=1}^T\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{[\sum_{i=0}^{t-1}\theta^ir_{t-i}]^2}{2\sigma^2})\\\to \max\ln(\prod_{t=1}^T\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{[\sum_{i=0}^{t-1}\theta^ir_{t-i}]^2}{2\sigma^2}))$

MA(2)

$r_t=\mu+a_t-\theta_1a_{t-1}-\theta_2a_{t-2}=\mu+(1-\theta_1B-\theta_2B^2)a_t\\E(r_t)=\mu\\Var(r_t)=(1+\theta_1^2+\theta_2^2)\sigma_a^2$

ACF：
$\rho_1=\frac{-\theta_1+\theta_1\theta_2}{1+\theta_1^2+\theta_2^2},\rho_2=\frac{-\theta_2}{1+\theta_1^2+\theta_2^2},\rho_l=0,l>2$

可逆性：使 $1-\theta_1x-\theta_2x^2=0$ 的两个解 $x_1|>1,|x_2|>1$ 。

MA(q)

$r_t=\mu+a_t-\theta_1a_{t-1}-\theta_2a_{t-2}-\cdots-\theta_qa_{t-q}=\mu+(1-\theta_1B-\theta_2B^2-\cdots-\theta_qB^q)a_t,q>0\\E(r_t)=\mu\\Var(r_t)=(1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2)\sigma_a^2\\r_s=\begin{cases}(-\theta_s+\theta_{s+1}\theta_1+\theta_{s+2}\theta_2+\cdots+\theta_q\theta_{q-s})\sigma_a^2,s\leq q\\0,s>q\end{cases}$

可逆性：使 $1-\theta_1x-\theta_2x^2-\cdots-\theta_qx^q=0$ 的所有解绝对值都大于一。

估计

通常用最大似然法。有两种方法求MA模型的似然函数。第一种是假设初始的“扰动”（即 $a_t,t\leq0$ ）都是0，由 $a_1=r_1-\mu,a_2=r_2-\mu+\theta_1a_1,\cdots$ ，可递推得到计算似然函数所需要的“扰动”，称为条件似然法，所得的估计是条件似然最大估计。第二种方法是把初始“扰动” $a_t(t\leq0)$ 当做模型的附加参数与其他参数一起估计起来，这种方法称为精确似然法。精确似然估计优于条件似然估计。

模型检验和预测

模型检验：检验残差序列（是否为白噪声）

预测，用 $\hat{\{a_t\}}$ 来代替模型中的 ${a_t\}$ 。

ARMA模型

ARMA(1)

$r_t=\phi_0+\phi_1r_{t-1}+a_t-\theta_1a_{t-1}\\(1-\phi_1B)r_t=\phi_0+(1-\theta_1B)a_t\\E(r_t)=\frac{\phi_0}{1-\phi_1}$

其中 ${a_t\}$ 是一个白噪声序列。

平稳性：与AR(1)相同。

可逆性：与MA(1)相同。
$Cov(r_t,a_t)=\sigma_a^2\\ Var(r_t)=Var(\phi_1r_{t-1}+a_t-\theta_1a_{t-1})=\phi_1^2Var(r_{t-1})-2\phi_1\theta_1\sigma_a^2+(1+\theta_1^2)\sigma_a^2\\Var(r_t)=\frac{(1-2\phi_1\theta_1+\theta_1^2)\sigma_a^2}{1-\phi_1^2}$
ACF：假设 $\phi_0=0$
$\gamma_1=E(r_tr_{t-1})=\phi_1E(r_{t-1}^2)-\theta_1E(a_{t-1}r_{t-1})\\\gamma_1=\phi_1Var(r_{t-1})-\theta_1\sigma_a^2\\\rho_1=\phi_1-\frac{\theta_1\sigma_a^2}{\gamma_0}\\l>1:\gamma_l=E(r_tr_{t-l})=\phi_1E(r_{t-1}r_{t-l})\\\gamma_l=\phi_1\gamma_{l-1}\\\rho_l=\phi_1\rho_{l-1}$
ARMA(1,1)模型的ACF不能在任意有限间隔后截尾，PACF也不能在有限间隔后截尾，指数衰减均从间隔2开始。

ARMA(p,q)

$r_t=\phi_0+\sum_{i=1}^p\phi_ir_{t-i}+a_t-\sum_{i=1}^q\theta_ia_{t-i}\\(1-\phi_1B-\cdots-\phi_pB^p)r_t=\phi_0+(1-\theta_1B-\cdots-\theta_qB^q)a_t$

其中 ${a_t\}$ 是白噪声序列， $p, q$ 没有公因子。

平稳性：与AR§相同。

可逆性：与MA(q)相同。
$E(r_t)=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}$

识别、估计和检验

识别：用AIC、BIC、HQIC。

估计：用条件极大似然估计法或精确极大似然估计法。

模型检验：检验残差项是否为白噪声。如果模型是正确的，Ljung-Box统计量 $Q (m)$ 渐进服从自由度为 $m - g$ 的 $\chi^2$ 分布，其中 $g$ 是所用模型中AR或MA系数的个数。如果常数项被包括进来，则自由度为 $m - g - 1$ 。

预测

只要将MA部分对低步数预测的影响进行调整后，ARMA(p,q)模型的预测就会与AR§模型的预测有相似特征。设预测原点为 $h$ ， $\digamma_h$ 为在 $h$ 时刻所能得到的信息集合， $r_{h+1}$ 的向前一步预测为：
$\hat r_{h+1}=E(r_{h+1}|\digamma_h)=\phi_0+\sum_{i=1}^p\phi_ir_{h+1-i}-\sum_{i=1}^q\theta_ia_{h+1-i}\\e_{h+1}=r_{h+1}-\hat r_{h+1}=a_{h+1}\\Var(e_{h+1})=\sigma_a^2$
对于向前 $l$ 步预测：
$\hat r_{h+l}=E(r_{h+l}|\digamma_{h})=\phi_0+\sum_{i=1}^p\phi_i\hat r_{h+l-i}-\sum_{i=1}^q\theta_ia_{h+l-i}$
其中，当 $l-i\leq0$ 时， $\hat r_{h+l-i}=r_{h+l-i}$ ；当 $l - i > 0$ 时， $a_{h+l-i}=0$ ；当 $l-i\leq0$ 时， $a_{h+l-i}=a_{h+l-i}$ 。

ARMA模型的另两种表示

给定两个多项式：
$\phi(B)=1-\sum_{i=1}^p\phi_iB^i,\theta(B)=1-\sum_{i=1}^q\theta_iB^i$
有：
$\frac{\theta(B)}{\phi(B)}=1+\psi_1B+\psi_2B^2+\cdots\equiv\psi(B)\\\frac{\phi(B)}{\theta(B)}=1-\pi_1B-\pi_2B^2-\cdots\equiv\pi(B)$
AR表示：
$r_t=\frac{\phi_0}{1-\theta_1-\cdots-\theta_q}+\pi_1r_{t-1}+\pi_2r_{t-2}+\pi_3r_{t-3}+\cdots+a_t$
这个表示给出了当前收益率 $r_t$ 对过去收益率 $r_{t-i},i>0$ 的依赖关系。

MA表示：
$r_t=\mu+a_t+\psi_1a_{t-1}+\psi_2a_{t-2}+\cdots=\mu+\psi(B)a_t\\\mu=E(r_t)=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}$
这个表示说明了过去的“扰动” $a_{t-i},i>0$ 对当前收益 $r_t$ 的影响。

样本外预测

例：如果 ${r_t\}$ 包含150个观测点，运用前100个观测点去估计AR(1)和MA(1)并分别去预测 $r_{100+1}$ 。将这两组预测记为 $f_{11},f_{21}$ ，将这两组的预测误差记为 $e_{11},e_{21}$ 。
$e_{11}=r_{101}-f_{11},e_{21}=r_{101}-f_{21}$
运用前101个观测点重新估计AR(1)和MA(1)，将两组预测记为 $f_{12},f_{22}$ ，获得另外两个预测误差。
$e_{12}=r_{102}-f_{12},e_{22}=r_{102}-f_{22}$
继续运用这个方法获得两组一步向前预测误差—— ${e_{1j}\}_{j=1}^{50},\{e_{2j}\}_{j=1}^{50}$ ，每组包含50个观测值。

Mean Square Prediction Error(MSPE)

如果有 $H$ 个观测，MSPE可以表示为：
$MSPE=\frac{1}{H}\sum_{j=1}^He_j^2$

Granger-Newbold检验

我们比较两个模型的预测误差。

假设：

预测误差是零均值的，且为正态分布
预测误差是序列不相关的

构造：
$x_j=e_{1j}+e_{2j},z_j=e_{1j}-e_{2j},j=1,\cdots,H$
则：
$\gamma_{xz}=cov(x,z)=cov(e_{1j}+e_{2j},e_{1j}-e_{2j})=E(e_{1j}^2-e_{2j}^2)$
在两个模型预测精度相等的零假设下， ${x_j\}、\{z_j\}$ 是不相关的，即 $\gamma_{xz}=0$ 。

如果 $\gamma_{xz}>0$ ，第一个模型有更大的MSPE。

如果 $\gamma_{xz}<0$ ，第二个模型有更大的MSPE。

令 $\hat\rho_{xz}$ 表示 ${x_j\}、\{z_j\}$ 的样本相关系数，假设1、2支持：
$\frac{\hat\rho_{xz}}{\sqrt{(1-\hat\rho_{xz}^2)/(H-1)}}\sim t_{H-1}$
$H_0:\rho_{xz}=0;H_1:\rho_{xz}>0\ \ or\ \ H_1:\rho_{xz}<0$

存在的问题：真实的数据通常不满足假设1、2。

Diebold-Mariano检验

令时刻 $j$ 的预测误差的损失函数为 $g(e_j)$ 。在均方误差形式下，损失为 $e_j^2$ 。

可以写出损失差 $d_j=g(e_{1j})-g(e_{2j})$ ，平均损失差可表示为：
$\bar d=\frac{1}{H}\sum_{j=1}^H[g(e_{1j})-g(e_{2j})]$
$H_0:预测精度相同;H_1:模型1更好(E(\bar d)<0)\ \ or\ \ H_1:模型2更好(E(\bar d)>0)$

在相等的预测精度的零假设下，有： $E(\bar d)=E(d_j)=0$

在零假设下，中心极限定理表明， $\bar d$ 服从均值为0,、方差为 $var(\bar d)$ 的正态分布。

如果 ${d_j\}$ 序列不相关，样本方差为 $\hat\gamma$ ， $var(\bar d)$ 的估计值为 $\frac{\hat\gamma}{H-1}$ ：
$\frac{\bar d}{\sqrt{\hat\gamma/(H-1)}}\to^dN(0,1),H\to\infin$
如果 ${d_j\}$ 序列相关，例如：Newey-West方差估计值：
$\frac{\bar d}{\sqrt{\hat{var(\bar d)}}}\to^dN(0,1),H\to\infin$
其中 $\hat{var(\bar d)}$ 是 $var(\bar d)$ 是准确估计。