文章目录
十八、时间序列的递推预测
1.零均值序列的递推预测
所谓递推预测,其实就是预测这样的问题: L ( Y n + 1 ∣ Y n ) L(Y_{n+1}|\boldsymbol Y_n) L(Yn+1∣Yn),这里 Y n = s p ‾ ( Y n , ⋯ , Y 1 ) \boldsymbol Y_n=\overline{\rm sp}(Y_n,\cdots,Y_1) Yn=sp(Yn,⋯,Y1),也就是用有限多项历史信息预测未来的信息。现在讨论零均值时间序列 { Y n } \{Y_n\} {Yn}的递推预测,这里并不要求 Y n Y_n Yn是平稳序列。
由于是递推预测,所以预测是一项一项进行的。对 Y 1 Y_1 Y1的预测由于没有任何历史信息,所以 Y ^ 1 = 0 \hat Y_1=0 Y^1=0,而获得了 Y 1 Y_1 Y1的实际观测值后,就可以计算预测误差 W 1 = Y 1 − Y ^ 2 W_1=Y_1-\hat Y_2 W1=Y1−Y^2;接下来对 Y 2 Y_2 Y2的预测就是 Y ^ 2 = L ( Y 2 ∣ Y 1 ) \hat Y_2=L(Y_2|\boldsymbol Y_1) Y^2=L(Y2∣Y1),得到 Y 2 Y_2 Y2的观测值后,又可以计算预测误差 W 2 = Y 2 − Y ^ 2 W_2=Y_2-\hat Y_2 W2=Y2−Y^2……由此,在进行我们需要的递推预测 Y ^ n + 1 = L ( Y n + 1 ∣ Y n ) \hat Y_{n+1}=L(Y_{n+1}|\boldsymbol Y_n) Y^n+1=L(Yn+1∣Yn)之前,我们已经可以获得以下的信息列:
- 预测序列 { Y ^ n } \{\hat Y_n\} {Y^n}: Y ^ 1 = 0 \hat Y_1=0 Y^1=0,对 k ≥ 1 k\ge 1 k≥1有 Y ^ k + 1 = L ( Y k + 1 ∣ Y k ) \hat Y_{k+1}=L(Y_{k+1}|\boldsymbol Y_k) Y^k+1=L(Yk+1∣Yk)。
- 预测误差序列 { W n } \{W_n\} {Wn}: W k = Y k − Y ^ k W_k=Y_k-\hat Y_k Wk=Yk−Y^k,代表每一次预测的误差观测值。
- 预测误差方差 { ν n } \{\nu_n\} {νn}: ν k = E ( W k + 1 2 ) \nu_{k}={\rm E}(W_{k+1}^2) νk=E(Wk+12),代表每一次预测的均方误差(期望值)。注意这里计算 ν k \nu_k νk时我们还没有获得 Y k + 1 Y_{k+1} Yk+1的观测值。
注意到 W k ⊥ Y k − 1 W_k\perp \boldsymbol Y_{k-1} Wk⊥Yk−1且 W k ∈ Y k W_k\in \boldsymbol Y_k Wk∈Yk,所以 { W k } \{W_k\} {Wk}是一个正交序列,有 E ( W n W k ) = ν n − 1 δ n − k {\rm E}(W_nW_k)=\nu_{n-1}\delta_{n-k} E(WnWk)=νn−1δn−k。
由于 Y n \boldsymbol Y_n Yn不是相互正交的,我们希望能够找到一个与 Y n \boldsymbol Y_n Yn等价的,但是互相正交的序列进行预测。事实上,预测误差序列就是这样的一个序列。记 W n = s p ‾ ( W 1 , ⋯ , W n ) \boldsymbol W_n=\overline{\rm sp}(W_1,\cdots,W_n) Wn=sp(W1,⋯,Wn),我们现在要证明它与 Y n \boldsymbol Y_n Yn的等价性,也就是 ∀ n , Y n ∈ W n \forall n,Y_n\in\boldsymbol W_n ∀n,Yn∈Wn。
使用数学归纳法,首先
Y
1
=
W
1
∈
M
1
Y_1=W_1\in M_1
Y1=W1∈M1是显然的,如果对
k
≤
n
k\le n
k≤n都有
Y
k
∈
W
k
Y_k\in \boldsymbol W_k
Yk∈Wk,则对
k
=
n
+
1
k=n+1
k=n+1,有
Y
n
+
1
=
Y
^
n
+
1
+
W
n
+
1
,
Y_{n+1}=\hat Y_{n+1}+W_{n+1},
Yn+1=Y^n+1+Wn+1,
而
Y
^
n
+
1
∈
Y
n
\hat Y_{n+1}\in \boldsymbol Y_n
Y^n+1∈Yn,也就是
Y
^
n
+
1
∈
W
n
\hat Y_{n+1}\in \boldsymbol W_n
Y^n+1∈Wn,且
W
n
+
1
∈
W
n
+
1
W_{n+1}\in \boldsymbol W_{n+1}
Wn+1∈Wn+1,所以
Y
n
+
1
∈
W
n
+
1
Y_{n+1}\in \boldsymbol W_{n+1}
Yn+1∈Wn+1就证得了,也就意味着我们证明了
Y
n
=
W
n
,
∀
n
,
\boldsymbol Y_n=\boldsymbol W_n,\forall n,
Yn=Wn,∀n,
因此我们用
W
1
,
⋯
,
W
n
W_1,\cdots,W_n
W1,⋯,Wn预测
Y
n
+
1
Y_{n+1}
Yn+1是合理的,即
Y
^
n
+
1
=
L
(
Y
n
+
1
∣
Y
n
)
=
L
(
Y
n
+
1
∣
W
n
)
\hat Y_{n+1}=L(Y_{n+1}|\boldsymbol Y_n)=L(Y_{n+1}|\boldsymbol W_n)
Y^n+1=L(Yn+1∣Yn)=L(Yn+1∣Wn)。
基于用预测误差预测未来的事实,引出如下的递推预测定理。
零均值序列的递推预测:设 { Y t } \{Y_t\} {Yt}是零均值时间序列,如果 ( Y 1 , ⋯ , Y m + 1 ) ′ (Y_1,\cdots,Y_{m+1})' (Y1,⋯,Ym+1)′的协方差矩阵是正定的,则最佳线性预测可以如下表示:
Y ^ n + 1 = L ( Y n + 1 ∣ Y n ) = ∑ j = 0 n − 1 θ n , n − j W j + 1 . \hat Y_{n+1}=L(Y_{n+1}|\boldsymbol Y_n)=\sum_{j=0}^{n-1}\theta_{n,n-j}W_{j+1}. Y^n+1=L(Yn+1∣Yn)=j=0∑n−1θn,n−jWj+1.
现在给出预测系数、预测均方误差的递推式,定义 ∑ j = 0 − 1 ( ⋅ ) = 0 \sum_{j=0}^{-1}(\cdot)=0 ∑j=0−1(⋅)=0,则
{ ν 0 = E Y 1 2 , θ n , n − k = E ( Y n + 1 Y k + 1 ) − ∑ j = 0 k − 1 θ k , k − j θ n , n − j ν j ν k , 0 ≤ k ≤ n − 1 , ν n = E ( Y n + 1 2 ) − ∑ j = 0 n − 1 θ n , n − j 2 ν j . \left\{\begin{array}l \nu_0={\rm E}Y_1^2, \\ \theta_{n,n-k}=\dfrac{{\rm E}(Y_{n+1}Y_{k+1})-\sum\limits_{j=0}^{k-1}\theta_{k,k-j}\theta_{n,n-j}\nu_j}{\nu_k},&0\le k\le n-1,\\ \nu_n={\rm E}(Y_{n+1}^2)-\sum\limits_{j=0}^{n-1}\theta_{n,n-j}^2\nu_j. \end{array} \right. ⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧ν0=EY12,θn,n−k=νkE(Yn+1Yk+1)−j=0∑k−1θk,k−jθn,n−jνj,νn=E(Yn+12)−j=0∑n−1θn,n−j2νj.0≤k≤n−1,
如果 { Y t } \{Y_t\} {Yt}是平稳的,则 E ( Y n + 1 Y k + 1 ) = γ n − k , E ( Y t 2 ) = γ 0 {\rm E}(Y_{n+1}Y_{k+1})=\gamma_{n-k},{\rm E}(Y_t^2)=\gamma_0 E(Yn+1Yk+1)=γn−k,E(Yt2)=γ0。
下设
0
≤
k
≤
n
−
1
0\le k\le n-1
0≤k≤n−1。要证明预测定理,只要对
Y
^
n
+
1
=
∑
j
=
1
n
θ
n
,
j
W
n
+
1
−
j
\hat Y_{n+1}=\sum_{j=1}^n\theta_{n,j}W_{n+1-j}
Y^n+1=∑j=1nθn,jWn+1−j的两边同时乘上
W
k
+
1
W_{k+1}
Wk+1并求数学期望,就得到
E
(
Y
^
n
+
1
W
k
+
1
)
=
θ
n
,
n
−
k
ν
k
,
{\rm E}(\hat Y_{n+1}W_{k+1})=\theta_{n,n-k}\nu_k,
E(Y^n+1Wk+1)=θn,n−kνk,
而因为
W
n
+
1
=
Y
n
+
1
−
Y
^
n
+
1
W_{n+1}=Y_{n+1}-\hat Y_{n+1}
Wn+1=Yn+1−Y^n+1与
W
k
+
1
W_{k+1}
Wk+1正交,
E
(
Y
^
n
+
1
W
k
+
1
)
=
E
(
Y
n
+
1
W
k
+
1
)
{\rm E}(\hat Y_{n+1}W_{k+1})={\rm E}(Y_{n+1}W_{k+1})
E(Y^n+1Wk+1)=E(Yn+1Wk+1),所以
θ
n
,
n
−
k
=
E
(
Y
n
+
1
W
k
+
1
)
ν
k
=
E
(
Y
n
+
1
(
Y
k
+
1
−
∑
j
=
0
k
−
1
θ
k
,
k
−
j
W
j
+
1
)
)
ν
k
,
\theta_{n,n-k}=\frac{{\rm E}(Y_{n+1}W_{k+1})}{\nu_k}=\frac{{\rm E}(Y_{n+1}(Y_{k+1}-\sum_{j=0}^{k-1}\theta_{k,k-j}W_{j+1}))}{\nu_k},
θn,n−k=νkE(Yn+1Wk+1)=νkE(Yn+1(Yk+1−∑j=0k−1θk,k−jWj+1)),
展开括号就得到结论,而
ν
j
\nu_j
νj很容易由勾股定理计算。总结一下,递推预测的系数应该如此计算:
ν
0
,
Y
^
1
=
0
,
W
1
=
Y
1
;
θ
1
,
1
ν
1
,
Y
^
2
=
θ
1
,
1
W
1
,
W
2
=
Y
2
−
Y
^
2
;
θ
2
,
2
θ
2
,
1
ν
2
,
Y
^
3
=
θ
2
,
2
W
1
+
θ
2
,
1
W
2
,
W
3
=
Y
3
−
Y
^
3
;
θ
3
,
3
θ
3
,
2
θ
3
,
3
ν
3
,
Y
^
4
=
θ
3
,
3
W
1
+
θ
3
,
2
W
2
+
θ
3
,
1
W
3
,
W
4
=
Y
4
−
Y
^
4
;
⋯
⋯
⋯
⋯
⋯
⋯
\begin{matrix} \nu_0, &&&& \hat Y_1=0,&W_1=Y_1; \\ \theta_{1,1} & \nu_1, &&& \hat Y_2=\theta_{1,1}W_1,& W_2=Y_2-\hat Y_2; \\ \theta_{2,2} & \theta_{2,1} & \nu_2, && \hat Y_3=\theta_{2,2}W_1+\theta_{2,1}W_2, & W_3=Y_3-\hat Y_3;\\ \theta_{3,3} & \theta_{3,2} & \theta_{3,3} & \nu_3,&\hat Y_4=\theta_{3,3}W_1+\theta_{3,2}W_2+\theta_{3,1}W_3,&W_4=Y_4-\hat Y_4; \\ \cdots & \cdots & \cdots & \cdots & \cdots & \cdots \end{matrix}
ν0,θ1,1θ2,2θ3,3⋯ν1,θ2,1θ3,2⋯ν2,θ3,3⋯ν3,⋯Y^1=0,Y^2=θ1,1W1,Y^3=θ2,2W1+θ2,1W2,Y^4=θ3,3W1+θ3,2W2+θ3,1W3,⋯W1=Y1;W2=Y2−Y^2;W3=Y3−Y^3;W4=Y4−Y^4;⋯
2.平稳序列与 A R ( p ) {\rm AR}(p) AR(p)模型的递推预测
对于平稳序列,以上结论更加实用,因为可以将公式里的许多部分替换成自协方差函数。
零均值平稳列的递推预测:设 { X t } \{X_t\} {Xt}是零均值平稳序列, Γ n = ( γ ∣ i − j ∣ ) n × n \Gamma_n=(\gamma_{|i-j|})_{n\times n} Γn=(γ∣i−j∣)n×n是其 n n n阶自协方差矩阵,预测误差是 Z t = X t − L ( X t ∣ X t − 1 ) Z_t=X_t-L(X_t|\boldsymbol X_{t-1}) Zt=Xt−L(Xt∣Xt−1),则
X ^ n + 1 = ∑ j = 0 n − 1 θ n , n − j Z j + 1 . \hat X_{n+1}=\sum_{j=0}^{n-1}\theta_{n,n-j}Z_{j+1}. X^n+1=j=0∑n−1θn,n−jZj+1.
满足如下的递推公式:定义 ∑ j = 0 − 1 ( ⋅ ) = 0 \sum_{j=0}^{-1}(\cdot)=0 ∑j=0−1(⋅)=0,则
{ ν 0 = γ 0 , θ n , n − k = γ n − k − ∑ j = 0 k − 1 θ k , k − j θ n , n − j ν j ν k , 0 ≤ k ≤ n − 1 , ν n = γ 0 − ∑ j = 0 n − 1 θ n , n − j 2 ν j . \left\{\begin{array}l \nu_0=\gamma_0, \\ \theta_{n,n-k}=\dfrac{\gamma_{n-k}-\sum\limits_{j=0}^{k-1}\theta_{k,k-j}\theta_{n,n-j}\nu_j}{\nu_k},&0\le k\le n-1,\\ \nu_n=\gamma_0-\sum\limits_{j=0}^{n-1}\theta_{n,n-j}^2\nu_j. \end{array} \right. ⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧ν0=γ0,θn,n−k=νkγn−k−j=0∑k−1θk,k−jθn,n−jνj,νn=γ0−j=0∑n−1θn,n−j2νj.0≤k≤n−1,
递推顺序与非平稳零均值序列一样。
此时,称预测误差 Z n Z_n Zn为样本新息。
典型的平稳序列有
A
R
(
p
)
,
M
A
(
q
)
{\rm AR}(p),{\rm MA}(q)
AR(p),MA(q)与
A
R
M
A
(
p
,
q
)
{\rm ARMA}(p,q)
ARMA(p,q)序列,我们将分别讨论其递推预测,先从
A
R
(
p
)
{\rm AR}(p)
AR(p)序列开始。设
{
X
t
}
\{X_t\}
{Xt}满足
A
R
(
p
)
{\rm AR}(p)
AR(p)模型:
A
(
B
)
X
t
=
ε
t
,
X
t
=
∑
j
=
1
p
a
j
X
t
−
j
+
ε
t
.
A(\mathscr B)X_t=\varepsilon_t,\quad X_t=\sum_{j=1}^pa_jX_{t-j}+\varepsilon_t.
A(B)Xt=εt,Xt=j=1∑pajXt−j+εt.
满足特征多项式
A
(
z
)
=
1
−
∑
j
=
1
p
a
j
z
j
≠
0
,
∣
z
∣
≤
1
A(z)=1-\sum_{j=1}^pa_jz^j\ne 0,|z|\le 1
A(z)=1−∑j=1pajzj=0,∣z∣≤1。事实上,由于
ε
t
\varepsilon_t
εt与历史信息无关,所以直觉上,应该会有
X
t
X_t
Xt只需要用其前
p
p
p项预测即可,也就是
L
(
X
n
+
1
∣
X
n
)
=
L
(
X
n
+
1
∣
X
n
,
X
n
−
1
,
⋯
,
X
n
−
p
+
1
)
.
L(X_{n+1}|\boldsymbol X_n)=L(X_{n+1}|X_n,X_{n-1},\cdots,X_{n-p+1}).
L(Xn+1∣Xn)=L(Xn+1∣Xn,Xn−1,⋯,Xn−p+1).
事实上也确实如此,因为
L
(
X
n
+
1
∣
X
n
)
=
L
(
∑
j
=
1
p
a
j
X
n
−
j
+
ε
t
∣
X
n
)
=
∑
j
=
1
p
a
j
X
n
−
j
.
L(X_{n+1}|\boldsymbol X_n)=L\left(\sum_{j=1}^pa_jX_{n-j}+\varepsilon_t\bigg|\boldsymbol X_n \right)=\sum_{j=1}^pa_jX_{n-j}.
L(Xn+1∣Xn)=L(j=1∑pajXn−j+εt∣∣∣∣Xn)=j=1∑pajXn−j.
由数学归纳法可以得到
L
(
X
n
+
k
∣
X
n
)
=
L
(
X
n
+
k
∣
X
n
,
X
n
−
1
,
⋯
,
X
n
−
p
+
1
)
L(X_{n+k}|\boldsymbol X_n)=L(X_{n+k}|X_n,X_{n-1},\cdots,X_{n-p+1})
L(Xn+k∣Xn)=L(Xn+k∣Xn,Xn−1,⋯,Xn−p+1),也就是说
A
R
(
p
)
{\rm AR}(p)
AR(p)模型的预测总只需要前
p
p
p项即可。那么,前
p
p
p项应该如何预测呢?这就可以用到平稳序列的递推公式了,我们假设白噪声方差为
σ
2
\sigma^2
σ2。
X
^
1
=
0
,
ν
0
=
γ
0
,
Z
1
=
X
1
.
\hat X_1=0,\quad \nu_0=\gamma_0,\quad Z_1=X_1.
X^1=0,ν0=γ0,Z1=X1.
接下来计算
θ
1
,
1
\theta_{1,1}
θ1,1,有
θ
1
,
1
=
γ
1
ν
0
=
γ
1
γ
0
,
X
^
2
=
γ
1
γ
0
X
1
,
Z
2
=
X
2
−
γ
1
γ
0
X
1
,
\theta_{1,1}=\frac{\gamma_1}{\nu_0}=\frac{\gamma_1}{\gamma_0},\quad \hat X_2=\frac{\gamma_1}{\gamma_0}X_1,\quad Z_2=X_2-\frac{\gamma_1}{\gamma_0}X_1,
θ1,1=ν0γ1=γ0γ1,X^2=γ0γ1X1,Z2=X2−γ0γ1X1,
再计算
θ
2
,
2
\theta_{2,2}
θ2,2和
θ
2
,
1
\theta_{2,1}
θ2,1,有
θ
2
,
2
=
γ
2
γ
0
,
θ
2
,
1
=
γ
1
−
θ
1
,
1
θ
2
,
2
ν
0
ν
1
,
X
^
3
=
θ
2
,
2
X
1
+
θ
2
,
1
(
X
2
−
γ
1
γ
0
X
1
)
.
\theta_{2,2}=\frac{\gamma_2}{\gamma_0},\theta_{2,1}=\frac{\gamma_1-\theta_{1,1}\theta_{2,2}\nu_0}{\nu_1},\quad \hat X_3=\theta_{2,2}X_1+\theta_{2,1}(X_{2}-\frac{\gamma_1}{\gamma_0}X_1).
θ2,2=γ0γ2,θ2,1=ν1γ1−θ1,1θ2,2ν0,X^3=θ2,2X1+θ2,1(X2−γ0γ1X1).
以此类推计算。
3. M A ( q ) {\rm MA}(q) MA(q)与 A R M A ( p , q ) {\rm ARMA}(p,q) ARMA(p,q)序列的递推预测
M
A
(
q
)
{\rm MA}(q)
MA(q)序列是有限滑动和,序列满足
X
t
=
B
(
B
)
ε
t
X_t=B(\mathscr B)\varepsilon_t
Xt=B(B)εt,且自协方差函数
q
q
q后截尾,因此
L
(
X
n
+
1
∣
X
n
)
=
L
(
X
n
+
1
∣
X
n
,
X
n
−
1
,
⋯
,
X
n
−
q
+
1
)
,
n
≥
q
.
L(X_{n+1}|\boldsymbol X_n)=L(X_{n+1}|X_n,X_{n-1},\cdots,X_{n-q+1}),\quad n\ge q.
L(Xn+1∣Xn)=L(Xn+1∣Xn,Xn−1,⋯,Xn−q+1),n≥q.
现在讨论
n
≥
q
n\ge q
n≥q时的预测,并假设
ε
^
n
=
X
n
−
X
^
n
\hat \varepsilon_n=X_n-\hat X_n
ε^n=Xn−X^n为逐步预测误差序列。有
L
(
X
n
+
1
∣
X
n
)
=
L
(
X
n
+
1
∣
X
n
,
X
n
−
1
,
⋯
,
X
n
−
q
+
1
)
=
L
(
X
n
+
1
∣
ε
^
n
,
⋯
,
ε
^
n
−
q
+
1
)
.
L(X_{n+1}|\boldsymbol X_n)=L(X_{n+1}|X_n,X_{n-1},\cdots,X_{n-q+1})=L(X_{n+1}|\hat\varepsilon_n,\cdots,\hat\varepsilon_{n-q+1}).
L(Xn+1∣Xn)=L(Xn+1∣Xn,Xn−1,⋯,Xn−q+1)=L(Xn+1∣ε^n,⋯,ε^n−q+1).
这是因为
X
n
\boldsymbol X_n
Xn的张成空间与
{
ε
^
n
}
\{\hat\varepsilon_n\}
{ε^n}张成空间在任何
n
n
n都相同,所以每次增加的
X
n
+
1
X_{n+1}
Xn+1与
ε
^
n
+
1
\hat\varepsilon_{n+1}
ε^n+1都位于同一纬度。接下来,按照递推公式计算系数
θ
n
,
1
,
⋯
,
θ
n
,
q
\theta_{n,1},\cdots,\theta_{n,q}
θn,1,⋯,θn,q即可。
A
R
M
A
(
p
,
q
)
{\rm ARMA}(p,q)
ARMA(p,q)序列则复杂一写,它不像
A
R
(
p
)
{\rm AR}(p)
AR(p)序列一样可由前有限项决定,也不像
M
A
(
q
)
{\rm MA}(q)
MA(q)序列一样
q
q
q后截尾,假设模型是
A
(
B
)
X
t
=
B
(
B
)
ε
t
A(\mathscr B)X_t=B(\mathscr B)\varepsilon_t
A(B)Xt=B(B)εt,考虑一个这样的变换
m
=
d
e
f
max
(
p
,
q
)
,
Y
t
=
{
X
t
/
σ
,
t
=
1
,
2
,
⋯
,
m
;
A
(
B
)
X
t
/
σ
,
t
>
m
.
m\xlongequal{def}\max(p,q), \quad Y_t=\left\{\begin{array}l X_t/\sigma,&t=1,2,\cdots,m;\\ A(\mathscr B)X_t/\sigma,&t>m. \end{array}\right.
mdefmax(p,q),Yt={Xt/σ,A(B)Xt/σ,t=1,2,⋯,m;t>m.
这样定义的
Y
t
Y_t
Yt与白噪声方差
σ
2
\sigma^2
σ2无关,且当
t
>
m
t>m
t>m时,有
σ
Y
t
=
B
(
B
)
ε
t
,
⇒
Y
t
=
B
(
B
)
ε
~
t
,
t
>
m
.
\sigma Y_t=B(\mathscr B)\varepsilon_t,\Rightarrow Y_t=B(\mathscr B)\tilde \varepsilon_t,\quad t>m.
σYt=B(B)εt,⇒Yt=B(B)ε~t,t>m.
也就是当
Y
t
>
m
Y_t>m
Yt>m的部分是一个
M
A
(
q
)
{\rm MA}(q)
MA(q)模型,从而是
q
q
q后截尾的。设
W
t
W_t
Wt是
Y
t
Y_t
Yt的预测误差,这样定义
Y
t
Y_t
Yt的好处有以下几点。
首先,
Y
t
,
X
t
Y_t,X_t
Yt,Xt的张成空间一样,即
Y
t
=
X
t
\boldsymbol Y_t=\boldsymbol X_t
Yt=Xt,从
Y
t
Y_t
Yt的定义,当
t
≤
m
t\le m
t≤m时可以直接看出,当
t
>
m
t>m
t>m时也显然有
Y
t
∈
X
t
Y_t\in\boldsymbol X_t
Yt∈Xt,并且可以用数学归纳法证明
X
t
∈
Y
t
X_t\in\boldsymbol Y_t
Xt∈Yt,从而
X
t
=
Y
t
\boldsymbol X_t=\boldsymbol Y_t
Xt=Yt。如果设
W
t
\boldsymbol W_t
Wt是
W
1
,
⋯
,
W
t
W_1,\cdots,W_t
W1,⋯,Wt的张成空间,则又有
Y
t
=
W
t
\boldsymbol Y_t=\boldsymbol W_t
Yt=Wt,从而有
X
t
=
Y
t
=
W
t
.
\boldsymbol X_t=\boldsymbol Y_t=\boldsymbol W_t.
Xt=Yt=Wt.
其次,由于
Y
t
Y_t
Yt与
X
t
X_t
Xt的联系,也可以用
X
t
X_t
Xt的自协方差函数
γ
k
\gamma_k
γk表示
Y
t
Y_t
Yt的协方差(但要注意
Y
t
Y_t
Yt在跨越
m
m
m时不平稳从而不是平稳过程)。当
s
≤
t
≤
m
s\le t\le m
s≤t≤m时
Y
t
Y_t
Yt与
X
t
X_t
Xt一样都是
A
R
M
A
(
p
,
q
)
{\rm ARMA}(p,q)
ARMA(p,q)模型,当
t
≥
s
>
m
t\ge s>m
t≥s>m时
Y
t
Y_t
Yt是
M
A
(
q
)
{\rm MA}(q)
MA(q)模型,它们的自协方差函数都容易表达,所以只要考虑
s
≤
m
<
t
s\le m<t
s≤m<t的情况即可。有
E
(
Y
s
Y
t
)
=
{
σ
−
2
γ
t
−
s
,
1
≤
s
≤
t
≤
m
;
σ
−
2
[
γ
t
−
s
−
∑
j
=
1
p
a
j
γ
t
−
s
−
j
]
,
1
≤
s
≤
m
<
t
;
∑
j
=
0
q
b
j
b
j
+
t
−
s
,
t
≥
s
>
m
.
b
0
=
1
,
b
j
=
0
(
j
>
q
)
.
{\rm E}(Y_sY_t)=\left\{\begin{array}l \sigma^{-2}\gamma_{t-s},&1\le s\le t\le m;\\ \sigma^{-2}[\gamma_{t-s}-\sum_{j=1}^pa_j\gamma_{t-s-j}],& 1\le s\le m <t;\\ \sum_{j=0}^qb_jb_{j+t-s},&t\ge s>m. \end{array}\right.\\ b_0=1,\quad b_j=0(j>q).
E(YsYt)=⎩⎨⎧σ−2γt−s,σ−2[γt−s−∑j=1pajγt−s−j],∑j=0qbjbj+t−s,1≤s≤t≤m;1≤s≤m<t;t≥s>m.b0=1,bj=0(j>q).
最后,
Y
t
Y_t
Yt的预测误差
W
t
W_t
Wt和
X
t
X_t
Xt的预测误差
Z
t
Z_t
Zt之间也存在联系。当
1
≤
t
≤
m
1\le t\le m
1≤t≤m时,
W
t
=
Y
t
−
Y
^
t
=
X
t
σ
−
1
σ
L
(
X
t
∣
X
t
−
1
)
=
1
σ
Z
t
,
W_t=Y_t-\hat Y_t=\frac{X_t}{\sigma}-\frac1{\sigma}L(X_t|\boldsymbol X_{t-1})=\frac1{\sigma}Z_t,\\
Wt=Yt−Y^t=σXt−σ1L(Xt∣Xt−1)=σ1Zt,
当
t
>
m
t>m
t>m时,
W
t
=
1
σ
[
A
(
B
)
X
t
−
L
(
A
(
B
)
X
t
∣
X
t
)
]
=
1
σ
[
X
t
−
L
(
X
t
∣
X
t
−
1
)
]
=
1
σ
Z
t
.
W_t=\frac{1}{\sigma}[A(\mathscr B)X_t-L(A(\mathscr B)X_t|\boldsymbol X_t) ]=\frac1{\sigma}[X_t-L(X_t|\boldsymbol X_{t-1})]=\frac1\sigma Z_t.
Wt=σ1[A(B)Xt−L(A(B)Xt∣Xt)]=σ1[Xt−L(Xt∣Xt−1)]=σ1Zt.
也就是说,不论
t
t
t取什么值,
W
t
W_t
Wt与
Z
t
Z_t
Zt之间总只相差一个常数倍,所以它们的均方误差之间也只差
σ
2
\sigma^2
σ2倍。
接下来就从形式相对简单的
Y
t
Y_t
Yt入手,推广到
X
t
X_t
Xt的预测。对于
1
≤
n
≤
m
1\le n\le m
1≤n≤m,有
Y
^
n
+
1
=
∑
j
=
0
n
−
1
θ
n
,
n
−
j
W
j
+
1
,
X
^
n
+
1
=
σ
Y
^
n
+
1
=
σ
∑
j
=
0
n
−
1
θ
n
,
n
−
j
W
j
+
1
=
∑
j
=
0
n
−
1
θ
n
,
n
−
j
Z
j
+
1
.
\hat Y_{n+1}=\sum_{j=0}^{n-1}\theta_{n,n-j}W_{j+1},\\ \hat X_{n+1}=\sigma \hat Y_{n+1}=\sigma\sum_{j=0}^{n-1}\theta_{n,n-j}W_{j+1}=\sum_{j=0}^{n-1}\theta_{n,n-j}Z_{j+1}.
Y^n+1=j=0∑n−1θn,n−jWj+1,X^n+1=σY^n+1=σj=0∑n−1θn,n−jWj+1=j=0∑n−1θn,n−jZj+1.
对于
n
>
m
n>m
n>m,此时
Y
n
+
1
=
σ
−
1
B
(
B
)
ε
n
+
1
Y_{n+1}=\sigma^{-1}B(\mathscr B)\varepsilon_{n+1}
Yn+1=σ−1B(B)εn+1,是一个
M
A
(
q
)
{\rm MA}(q)
MA(q)序列,所以结合前面对白噪声序列的讨论,
L
(
Y
n
+
1
∣
Y
n
)
=
∑
j
=
1
q
θ
n
,
j
W
n
+
1
−
j
.
L(Y_{n+1}|\boldsymbol Y_n)=\sum_{j=1}^q\theta_{n,j}W_{n+1-j}.
L(Yn+1∣Yn)=j=1∑qθn,jWn+1−j.
又因为
σ
Y
t
=
A
(
B
)
X
t
\sigma Y_t=A(\mathscr B)X_t
σYt=A(B)Xt,所以
X
n
+
1
=
σ
Y
n
+
1
+
∑
j
=
1
p
a
j
X
n
+
1
−
j
,
X
^
n
+
1
=
∑
j
=
1
q
θ
n
,
j
Z
n
+
1
−
j
+
∑
j
=
1
p
a
j
X
n
+
1
−
j
.
X_{n+1}=\sigma Y_{n+1}+\sum_{j=1}^pa_jX_{n+1-j},\\ \hat X_{n+1}=\sum_{j=1}^q\theta_{n,j}Z_{n+1-j}+\sum_{j=1}^pa_jX_{n+1-j}.
Xn+1=σYn+1+j=1∑pajXn+1−j,X^n+1=j=1∑qθn,jZn+1−j+j=1∑pajXn+1−j.
可以看出,在
n
>
m
n>m
n>m时,对
X
n
+
1
X_{n+1}
Xn+1的最佳线性预测,既有
A
R
(
p
)
{\rm AR}(p)
AR(p)序列的有限项因素,也有
M
A
(
q
)
{\rm MA}(q)
MA(q)序列预测的
q
q
q后截尾性。
回顾总结
-
对于零均值序列的递推预测,因为 Y n = W n \boldsymbol Y_n=\boldsymbol W_n Yn=Wn,一般会选择用预测误差序列进行线性预测,这是因为预测误差序列具有正交性。
-
具体到平稳序列 { X t } \{X_t\} {Xt}情形,如果预测误差为 Z t Z_t Zt,自协方差函数为 γ k \gamma_k γk,则递推公式为
X ^ n + 1 = ∑ j = 0 n − 1 θ n , n − j W j + 1 . ν 0 = γ 0 , θ n , n − k = γ n − k − ∑ j = 0 n − 1 θ k , k − j θ n , n − j ν j ν k ν n = γ 0 − ∑ j = 0 n − 1 θ n , n − j 2 ν j . \hat X_{n+1}=\sum_{j=0}^{n-1}\theta_{n,n-j}W_{j+1}.\\ \nu_0=\gamma_0,\\ \theta_{n,n-k}=\frac{\gamma_{n-k}-\sum_{j=0}^{n-1}\theta_{k,k-j}\theta_{n,n-j}\nu_j}{\nu_{k}}\\ \nu_n=\gamma_0-\sum_{j=0}^{n-1}\theta_{n,n-j}^2\nu_j. X^n+1=j=0∑n−1θn,n−jWj+1.ν0=γ0,θn,n−k=νkγn−k−∑j=0n−1θk,k−jθn,n−jνjνn=γ0−j=0∑n−1θn,n−j2νj. -
A R ( p ) {\rm AR}(p) AR(p)序列的预测,只需要用前 p p p个历史信息即可; M A ( q ) {\rm MA}(q) MA(q)序列的预测,只需要用前 q q q个预测误差即可。
-
A R M A ( p , q ) {\rm ARMA}(p,q) ARMA(p,q)序列的预测,可以构造一个辅助序列,使其具有更简单的形式。具体地,有
X ^ n + 1 = { ∑ j = 0 n − 1 θ n , n − j Z j + 1 , n ≤ m ; ∑ j = 1 q θ n , 1 Z n − q + j + ∑ j = 1 p a j X n + 1 − j , n > m . \hat X_{n+1}= \left\{\begin{array}l \sum\limits_{j=0}^{n-1}\theta_{n,n-j}Z_{j+1},& n\le m; \\ \sum\limits_{j=1}^q\theta_{n,1}Z_{n-q+j}+\sum\limits_{j=1}^pa_jX_{n+1-j},&n>m. \end{array}\right. X^n+1=⎩⎪⎪⎨⎪⎪⎧j=0∑n−1θn,n−jZj+1,j=1∑qθn,1Zn−q+j+j=1∑pajXn+1−j,n≤m;n>m.