十七、Hilbert空间的投影与Wold表示定理
1.Hilbert空间上的投影
在《四、Hilbert空间》中,我们提到了随机变量的Hilbert空间,这是一个二阶矩有限的随机变量全体构成的线性空间,并且是一个内积空间、度量空间、完备空间(完备性指的是基本列总存在极限)。在介绍了最佳线性预测的概念后,我们也可以在Hilbert空间上找到最佳线性预测的几何意义。
Y Y Y关于 X \boldsymbol X X的最佳线性预测,是用 X \boldsymbol X X分量的线性组合表示 Y Y Y的所有与 X \boldsymbol X X相关的部分,这意味着 Y − L ( Y ∣ X ) Y-L(Y|\boldsymbol X) Y−L(Y∣X)与 X \boldsymbol X X不相关。而在Hilbert空间中,对内积的定义是 ⟨ X , Y ⟩ = E ( X Y ) \langle X,Y\rangle={\rm E}(XY) ⟨X,Y⟩=E(XY),所以 X , Y X,Y X,Y正交实际上指的就是 X , Y X,Y X,Y不相关。于是,我们可以认为 L ( Y ∣ X ) L(Y|\boldsymbol X) L(Y∣X)是 Y Y Y在 X \boldsymbol X X上的投影。
在证明这个结论之前,先对投影与垂直(随机变量与空间)作出定义。
投影:如果 H H H是 L 2 L^2 L2的闭子空间, Y ∈ L 2 , Y ^ ∈ H Y\in L^2,\hat Y\in H Y∈L2,Y^∈H使得
E ( Y − Y ^ ) 2 = inf ξ ∈ H E ( Y − ξ ) 2 , {\rm E}(Y-\hat Y)^2=\inf_{\xi\in H}{\rm E}(Y-\xi)^2, E(Y−Y^)2=ξ∈HinfE(Y−ξ)2,
就称 Y ^ \hat Y Y^是 Y Y Y在 H H H上的投影,记作 Y ^ = P H ( Y ) \hat Y=P_H(Y) Y^=PH(Y),并且称 P H P_H PH为投影算子。垂直:设 Y ∈ L 2 Y\in L^2 Y∈L2,如果 H H H中的任何 ξ \xi ξ都有 E ( Y ξ ) = 0 {\rm E}(Y\xi)=0 E(Yξ)=0,就称 Y Y Y垂直于 H H H。
投影与垂直的关系:设 Y ∈ L 2 , Y ^ ∈ H Y\in L^2,\hat Y\in H Y∈L2,Y^∈H,则
P H ( Y ) = Y ^ ⇔ ( Y − Y ^ ) ⊥ H . P_H(Y)=\hat Y\Leftrightarrow (Y-\hat Y)\perp H. PH(Y)=Y^⇔(Y−Y^)⊥H.
投影的存在性不再证明,只需要知道对于任何 L 2 L^2 L2的闭子空间 H H H,在 L 2 L^2 L2内的随机变量 Y Y Y都能在 H H H内找到唯一的投影 Y ^ = P H ( Y ) \hat Y=P_H(Y) Y^=PH(Y)即可。
这样,我们就能够通过 E [ X ( Y − L ( Y ∣ X ) ) ] = 0 {\rm E}[\boldsymbol X(Y-L(Y|\boldsymbol X))]=0 E[X(Y−L(Y∣X))]=0得到垂直,从而证明了 L ( Y ∣ X ) L(Y|\boldsymbol X) L(Y∣X)是 Y Y Y在 sp ( X ) \text{sp}(\boldsymbol X) sp(X)上的投影,因此,我们还可以把投影算子 P H ( Y ) P_H(Y) PH(Y)记作 L ( Y ∣ H ) L(Y|H) L(Y∣H)。从最佳线性预测的性质出发,还能够得到以下关于最佳线性预测与投影的性质:
-
L ( a X + b Y ∣ H ) = a L ( X ∣ H ) + b L ( Y ∣ H ) L(aX+bY|H)=aL(X|H)+bL(Y|H) L(aX+bY∣H)=aL(X∣H)+bL(Y∣H)——投影的线性性。
-
E Y 2 = E [ L ( Y ∣ H ) ] 2 + E [ Y − L ( Y ∣ H ) ] 2 {\rm E}Y^2={\rm E}[L(Y|H)]^2+{\rm E}[Y-L(Y|H)]^2 EY2=E[L(Y∣H)]2+E[Y−L(Y∣H)]2——Hilbert空间上的勾股定理。
-
E [ L ( Y ∣ H ) ] 2 ≤ E Y 2 {\rm E}[L(Y|H)]^2\le {\rm E}Y^2 E[L(Y∣H)]2≤EY2——直角三角形中的不等式。
-
Y ∈ H ⇔ L ( Y ∣ H ) = Y Y\in H\Leftrightarrow L(Y|H)=Y Y∈H⇔L(Y∣H)=Y——空间性质。
-
Y ⊥ H ⇔ L ( Y ∣ H ) = 0 Y\perp H\Leftrightarrow L(Y|H)=0 Y⊥H⇔L(Y∣H)=0——空间性质。
-
如果 H ⊂ M H\sub M H⊂M,则 P H P M = P H P_HP_M=P_H PHPM=PH,且对 Y ∈ L 2 Y\in L^2 Y∈L2,有
E [ Y − L ( Y ∣ M ) ] 2 ≤ E [ Y − L ( Y ∣ H ) ] 2 , {\rm E}[Y-L(Y|M)]^2\le {\rm E}[Y-L(Y|H)]^2, E[Y−L(Y∣M)]2≤E[Y−L(Y∣H)]2,
从最佳线性预测角度看, M M M包含了比 H H H更多的信息;从Hilbert空间的角度看,与高维的距离总是大于与低维度的距离。
最后简要提一下Hilbert空间中的最佳预测。最佳预测与最佳线性预测的区别在于,它去除了线性的限制,这使得用来拟合目标随机变量的式子形式更多样,也因此更能缩小误差。在最佳线性预测中,我们采用
X
\boldsymbol X
X的线性组合构成的Hilbert空间
H
H
H,进入最佳预测时,我们考虑的预测空间就变成了
X
\boldsymbol X
X的所有二阶矩有限函数构成的空间,即
M
=
{
g
(
X
)
:
E
g
2
(
X
)
<
∞
}
.
M=\{g(\boldsymbol X):{\rm E}g^2(\boldsymbol X)<\infty \}.
M={g(X):Eg2(X)<∞}.
最佳预测自然应该满足
L
(
Y
∣
M
)
⊥
M
L(Y|M)\perp M
L(Y∣M)⊥M,而显然有
H
⊂
M
H\sub M
H⊂M,所以最佳预测的均方误差也不超过最佳线性预测。但由于最佳预测的形式复杂(在概率论中说过,最佳预测就是条件期望),所以在使用上没有最佳线性预测方便,并且在正态条件下,最佳线性预测就是最佳预测,这是因为正态分布的不相关与等价独立。
最佳线性预测就是最佳预测的条件:设 ( X 1 , ⋯ , X n , Y ) ′ = ( X ′ , Y ) ′ (X_1,\cdots,X_n,Y)'=(\boldsymbol X',Y)' (X1,⋯,Xn,Y)′=(X′,Y)′服从联合正态分布 N n + 1 ( μ , Σ ) N_{n+1}(\boldsymbol \mu,\Sigma) Nn+1(μ,Σ),则
L ( Y ∣ M ) = L ( Y ∣ X ) . L(Y|M)=L(Y|\boldsymbol X). L(Y∣M)=L(Y∣X).
2.线性闭包与无穷历史预测
最佳线性预测中,我们用到的是 X \boldsymbol X X的线性组合构成的空间,记作 s p ( X ) {\rm sp}(\boldsymbol X) sp(X),但这里 X \boldsymbol X X是有限维的,如果我们要将 X \boldsymbol X X的维数扩展到无限维,就需要对极限情况加以更多的讨论。而Hilbert空间是完备的,因而极限不可忽视,于是引入线性闭包 s p ‾ ( A ) \overline{\rm sp}(A) sp(A)。
线性闭包:设 A A A是Hilbert空间 H H H的子集,令 A A A的线性闭包为包含 A A A的最小的闭子空间 s p ‾ ( A ) = H A \overline{\rm sp}(A)=H_A sp(A)=HA。这样, H A H_A HA是完备的,即 ∀ ξ ∈ H A , ∃ ξ n ∈ H A \forall \xi\in H_A,\exists \xi_n\in H_A ∀ξ∈HA,∃ξn∈HA使得
∣ ∣ ξ n − ξ ∣ ∣ → 0 ( n → ∞ ) . ||\xi_n-\xi||\to 0(n\to \infty). ∣∣ξn−ξ∣∣→0(n→∞).
事实上, H A H_A HA就是 s p ( A ) {\rm sp}(A) sp(A)中元素及其极限构成的集合,且是一个闭集。
因为我们假定平稳序列拥有无穷多的历史信息,所以有了线性闭包这一工具,我们就可以转向平稳序列的预测了。求对平稳序列的最佳线性预测,就是在给定一系列历史 X n , X n − 1 , ⋯ X_n,X_{n-1},\cdots Xn,Xn−1,⋯后,在无穷历史的线性闭包 H n H_n Hn上求 L ( X n + k ∣ H n ) L(X_{n+k}|H_n) L(Xn+k∣Hn)。根据 H n H_n Hn的完备性,我们可以由有穷历史逼近无穷历史,相关定理如下:
使用无穷历史进行预测:设 X n , m = ( X n , X n − 1 , ⋯ , X n − m + 1 ) ′ \boldsymbol X_{n,m}=(X_n,X_{n-1},\cdots,X_{n-m+1})' Xn,m=(Xn,Xn−1,⋯,Xn−m+1)′, Y ∈ L 2 Y\in L^2 Y∈L2,则当 m → ∞ m\to \infty m→∞时,
L ( Y ∣ X n , m ) → m . s . L ( Y ∣ H n ) = d Y ^ . L(Y|\boldsymbol X_{n,m})\stackrel{\rm m.s.}\to L(Y|H_n)\stackrel {\rm d}=\hat Y. L(Y∣Xn,m)→m.s.L(Y∣Hn)=dY^.
证明过程是构造一系列随机变量 Y ^ m \hat Y_m Y^m用来逼近 Y ^ \hat Y Y^,从而由Hilbert空间的性质得到最佳线性预测的均方相合性,自然地 Y ^ m = L ( Y ∣ X n , m ) \hat Y_m=L(Y|\boldsymbol X_{n,m}) Y^m=L(Y∣Xn,m)。
此时,如果我们把
Y
Y
Y换成
X
n
+
1
,
⋯
,
X
n
+
k
X_{n+1},\cdots,X_{n+k}
Xn+1,⋯,Xn+k,就有
σ
1
2
=
E
[
X
n
+
1
−
L
(
X
n
+
1
∣
H
n
)
]
2
=
E
[
X
1
−
L
(
X
1
∣
H
0
)
]
2
,
⋮
σ
k
2
=
E
[
X
n
+
k
−
L
(
X
n
+
k
∣
H
n
)
]
2
=
E
[
X
k
−
L
(
X
k
∣
H
0
)
]
2
.
\sigma_1^2={\rm E}[X_{n+1}-L(X_{n+1}|H_n)]^2={\rm E}[X_1-L(X_{1}|H_0)]^2,\\ \vdots \\ \sigma^2_k={\rm E}[X_{n+k}-L(X_{n+k}|H_n)]^2={\rm E}[X_{k}-L(X_k|H_0)]^2.
σ12=E[Xn+1−L(Xn+1∣Hn)]2=E[X1−L(X1∣H0)]2,⋮σk2=E[Xn+k−L(Xn+k∣Hn)]2=E[Xk−L(Xk∣H0)]2.
结合我们对决定性平稳序列、非决定性平稳序列的定义,可以得到如下的结论:
决定性平稳序列: { X t } \{X_t\} {Xt}是决定性平稳序列,等价于 σ 1 2 = 0 \sigma_1^2=0 σ12=0,即 X n + 1 ∈ H n X_{n+1}\in H_n Xn+1∈Hn,也就有 H n = H n − 1 H_n=H_{n-1} Hn=Hn−1。
纯非决定性平稳序列: { X t } \{X_t\} {Xt}是纯非决定性平稳序列,等价于 σ k 2 → γ 0 \sigma_k^2\to \gamma_0 σk2→γ0,也就是
σ k 2 = ∣ ∣ X n + k − L ( X n + k ∣ H n ) ∣ ∣ 2 → γ 0 ( k → ∞ ) . \sigma^2_k=||X_{n+k}-L(X_{n+k}|H_n)||^2\to \gamma_0\quad (k\to \infty). σk2=∣∣Xn+k−L(Xn+k∣Hn)∣∣2→γ0(k→∞).
3.Wold表示定理
Wold表示定理是一种对非决定性零均值平稳序列的拆分,它将一个非决定性平稳序列拆分成不相关的纯非决定性的部分与决定性的部分,内容如下。
Wold表示定理:任一非决定性的零均值平稳序列 { X t } \{X_t\} {Xt}可以表示成
X t = ∑ j = 0 ∞ a j ε t − j + V t , t ∈ Z , X_t=\sum_{j=0}^\infty a_j\varepsilon_{t-j}+V_t,\quad t\in\Z, Xt=j=0∑∞ajεt−j+Vt,t∈Z,
其中,
ε t = X t − L ( X t ∣ X t − 1 , X t − 2 , ⋯ ) \varepsilon_t=X_t-L(X_t|X_{t-1},X_{t-2},\cdots) εt=Xt−L(Xt∣Xt−1,Xt−2,⋯)是零均值白噪声,满足
E ε t 2 = σ 2 > 0 , a 0 = 1 , a j = E ( X t ε t − j ) σ 2 , ∑ j = 0 ∞ a j 2 < ∞ . {\rm E}\varepsilon_t^2=\sigma^2>0,\quad a_0=1,\\ a_j=\frac{{\rm E}(X_t\varepsilon_{t-j})}{\sigma^2},\\ \sum_{j=0}^\infty a_j^2<\infty. Eεt2=σ2>0,a0=1,aj=σ2E(Xtεt−j),j=0∑∞aj2<∞.定义 U t = ∑ j = 0 ∞ a j ε t − j U_t=\sum_{j=0}^\infty a_j\varepsilon_{t-j} Ut=∑j=0∞ajεt−j,则 { U t } , { V t } \{U_t\},\{V_t\} {Ut},{Vt}都是平稳序列,且互相正交。
定义 H ε ( t ) = s p ‾ { ε s : s ≤ t } , H U ( t ) = s p ‾ { U s , s ≤ t } H_\varepsilon(t)=\overline{\rm sp}\{\varepsilon_s:s\le t\},H_U(t)=\overline{\rm sp}\{U_s,s\le t\} Hε(t)=sp{εs:s≤t},HU(t)=sp{Us,s≤t},则
H ε ( t ) = H U ( t ) . H_\varepsilon(t)=H_U(t). Hε(t)=HU(t).{ U t } \{U_t\} {Ut}是纯非决定性的平稳序列,谱密度为
f ( λ ) = σ 2 2 π ∣ ∑ j = 0 ∞ a j e i j λ ∣ 2 . f(\lambda)=\frac{\sigma^2}{2\pi}\left|\sum_{j=0}^\infty a_je^{{\rm i}j\lambda} \right|^2. f(λ)=2πσ2∣∣∣∣∣j=0∑∞ajeijλ∣∣∣∣∣2.{ V t } \{V_t\} {Vt}是决定性的平稳序列,且对任何 t , k ∈ Z t,k\in\Z t,k∈Z, V t ∈ H t − k V_t\in H_{t-k} Vt∈Ht−k。
对平稳序列的Wold表示,作如下的定义:
- 称 X t = U t + V t X_t=U_t+V_t Xt=Ut+Vt是 { X t } \{X_t\} {Xt}的Wold表示。
- 称 { U t } \{U_t\} {Ut}是 { X t } \{X_t\} {Xt}的纯非决定性部分, { V t } \{V_t\} {Vt}是 { X t } \{X_t\} {Xt}的决定性部分。
- 称 { a j } \{a_j\} {aj}是 { X t } \{X_t\} {Xt}的Wold系数。
- 称一步预测误差 ε t = X t − L ( X t ∣ X t − 1 , ⋯ ) \varepsilon_t=X_t-L(X_t|X_{t-1},\cdots) εt=Xt−L(Xt∣Xt−1,⋯)是 { X t } \{X_t\} {Xt}的新息序列。
- 称 σ 2 = E ε t 2 \sigma^2={\rm E}\varepsilon_t^2 σ2=Eεt2为一步预测的均方误差。
可以看到,Wold表示定理把非决定序列分成的两部分中,纯非决定性的部分是白噪声的单边无穷滑动和,这与 A R ( p ) {\rm AR}(p) AR(p)序列与 A R M A ( p , q ) {\rm ARMA}(p,q) ARMA(p,q)序列的一致,并且,白噪声的系数也同样被称为Wold系数。而新息序列,就是在非决定性部分中,用历史对下一步作预测的误差,误差的方差就是一步预测的均方误差。
为了计算误差的方差,有Kolmogorov公式:
Kolmogorov公式:设 { U t } \{U_t\} {Ut}是 { X t } \{X_t\} {Xt}的纯非决定性部分, f ( λ ) f(\lambda) f(λ)是 { U t } \{U_t\} {Ut}的谱密度,则其一步预测误差的方差为
σ 2 = 2 π exp ( 1 2 π ∫ − π π ln f ( λ ) d λ ) . \sigma^2=2\pi\exp\left(\frac1{2\pi}\int_{-\pi}^\pi\ln f(\lambda){\rm d}\lambda \right). σ2=2πexp(2π1∫−ππlnf(λ)dλ).
有了一步预测的误差,还可以计算
n
n
n步预测误差的方差,即
σ
2
(
n
)
=
E
[
X
t
+
n
−
L
(
X
t
+
n
∣
H
n
)
]
2
\sigma^2(n)={\rm E}[X_{t+n}-L(X_{t+n}|H_n)]^2
σ2(n)=E[Xt+n−L(Xt+n∣Hn)]2,因为
X
t
+
n
−
L
(
X
t
+
n
∣
H
n
)
=
∑
j
=
0
n
−
1
a
j
ε
t
+
n
−
j
,
X_{t+n}-L(X_{t+n}|H_n)=\sum_{j=0}^{n-1}a_j\varepsilon_{t+n-j},
Xt+n−L(Xt+n∣Hn)=j=0∑n−1ajεt+n−j,
所以均方误差为
σ
2
(
n
)
=
σ
2
∑
j
=
0
n
−
1
a
j
2
→
E
U
t
2
(
n
→
∞
)
.
\sigma^2(n)=\sigma^2\sum_{j=0}^{n-1}a_j^2\to {\rm E}U_t^2\quad (n\to \infty).
σ2(n)=σ2j=0∑n−1aj2→EUt2(n→∞).
回顾总结
-
最佳线性预测 L ( Y ∣ X ) L(Y|\boldsymbol X) L(Y∣X),其实就是 Y Y Y在 s p ( X ) {\rm sp}(\boldsymbol X) sp(X)上的投影,因此 L ( Y ∣ X ) L(Y|\boldsymbol X) L(Y∣X)具有的性质都可以在Hilbert空间上导出。
-
如果将 X \boldsymbol X X的所有可测函数中,二阶矩有限的随机变量构成一个新空间 M M M,那么 Y Y Y在 M M M空间上的投影 L ( Y ∣ M ) L(Y|M) L(Y∣M)就是 X \boldsymbol X X对 Y Y Y的最佳预测。在正态约束下,最佳预测与最佳线性预测相等。
-
如果 X \boldsymbol X X是无限维的,那么 X \boldsymbol X X的有限线性组合及其极限构成的集合是一个闭集,称为线性闭包,记作 H X H_\boldsymbol X HX或 s p ‾ ( X ) \overline{\rm sp}(\boldsymbol X) sp(X)。使用无穷历史信息进行线性预测,其实就是在线性闭包上作投影,对于时间序列 { X n } \{X_n\} {Xn}来说, n n n时刻以前的历史信息构成的线性闭包又记作 H n H_n Hn。
-
记 σ k 2 = E [ X n + k − L ( X n + k ∣ H n ) ] \sigma^2_k={\rm E}[X_{n+k}-L(X_{n+k}|H_n)] σk2=E[Xn+k−L(Xn+k∣Hn)],则 σ 1 2 = 0 \sigma_1^2=0 σ12=0等价于 { X n } \{X_n\} {Xn}是决定性的, σ k 2 → γ 0 \sigma_k^2\to \gamma_0 σk2→γ0等价于 { X t } \{X_t\} {Xt}是纯非决定性的。
-
Wold表示定理指出,任何零均值平稳序列,都可以拆分成两个不相关的纯非决定性部分与决定性部分的加和。这里纯非决定性部分是白噪声的单边无穷滑动和,白噪声序列称为新息序列,前面的系数称为Wold系数,白噪声方差就是一步预测的均方误差。
-
Kolmogorov联系起了一步预测的均方误差与谱密度,存在这样的关系:
σ 2 = 2 π exp ( 1 2 π ∫ − π π ln f ( λ ) d λ ) . \sigma^2=2\pi\exp\left(\frac 1{2\pi}\int_{-\pi}^\pi \ln f(\lambda){\rm d}\lambda \right). σ2=2πexp(2π1∫−ππlnf(λ)dλ).
同时有 σ k 2 = σ 2 ∑ j = 0 k a j 2 , σ k 2 → E U t 2 \sigma_k^2=\sigma^2\sum_{j=0}^k a_j^2,\sigma^2_k\to {\rm E}U_t^2 σk2=σ2∑j=0kaj2,σk2→EUt2。