1 CEF error的有限性问题
在回归中,记条件期望函数(conditional expectation function,CEF)为
E
[
Y
∣
X
=
x
]
E[Y|X=x]
E[Y∣X=x],则可将因变量
Y
Y
Y分解为
Y
=
E
[
Y
∣
X
=
x
]
+
e
Y=E[Y|X=x]+e
Y=E[Y∣X=x]+e
可记
e
=
Y
−
E
[
Y
∣
X
=
x
]
e=Y-E[Y|X=x]
e=Y−E[Y∣X=x]为条件期望函数误差(CEF error)。
显然, e e e满足 E [ e ∣ X ] = 0 E[e|X]=0 E[e∣X]=0, E [ e ] = 0 E[e]=0 E[e]=0,这些都很容易证明。下面来看一个关于 e e e的有限性的问题:
若对于 r > 1 r\gt 1 r>1有 E [ ∣ Y ∣ r ] < ∞ E[|Y|^r]\lt \infty E[∣Y∣r]<∞,求证 E [ ∣ e ∣ r ] < ∞ E[|e|^r]\lt \infty E[∣e∣r]<∞。
从直觉上说, e e e是用条件期望函数对 Y Y Y做了解释后留下的残差,那么 Y Y Y的有限性应该可以保证 e e e的有限性。但要证明它,却比较复杂。
2 证明
首先我们利用Minkowski不等式,有
(
E
[
∣
e
∣
r
]
)
1
/
r
=
(
E
[
∣
Y
−
E
[
Y
∣
X
=
x
]
∣
r
]
)
1
/
r
≤
(
E
[
∣
Y
∣
r
]
)
1
/
r
+
(
E
[
∣
E
[
Y
∣
X
=
x
]
∣
r
]
)
1
/
r
\begin{aligned} &\left(E[|e|^r] \right)^{1/r}\\ =& \left(E\left[|Y-E[Y|X=x]|^r\right]\right)^{1/r}\\ \leq& \left(E\left[|Y|^r\right]\right)^{1/r}+\left(E\left[|E[Y|X=x]|^r\right]\right)^{1/r} \end{aligned}
=≤(E[∣e∣r])1/r(E[∣Y−E[Y∣X=x]∣r])1/r(E[∣Y∣r])1/r+(E[∣E[Y∣X=x]∣r])1/r
由已知条件,第一项 ( E [ ∣ Y ∣ r ] ) 1 / r \left(E\left[|Y|^r\right]\right)^{1/r} (E[∣Y∣r])1/r是有限的。
对于第二项,由于
g
(
⋅
)
=
∣
⋅
∣
r
g(\cdot)=|\cdot|^r
g(⋅)=∣⋅∣r在
r
≥
1
r\geq 1
r≥1时为凸函数,由Jensen不等式
g
(
E
[
Y
∣
X
]
)
≤
E
[
g
(
Y
)
∣
X
]
g(E[Y|X]) \leq E[g(Y)|X]
g(E[Y∣X])≤E[g(Y)∣X],即有
∣
E
[
Y
∣
X
]
∣
r
≤
E
[
∣
Y
∣
r
∣
X
]
|E[Y|X]|^r \leq E[|Y|^r|X]
∣E[Y∣X]∣r≤E[∣Y∣r∣X]
再对两边取期望后取
1
/
r
1/r
1/r次幂,可得
(
E
[
∣
E
[
Y
∣
X
]
∣
r
]
)
1
/
r
≤
(
E
[
∣
Y
∣
r
]
)
1
/
r
\left(E\left[|E[Y|X]|^r \right]\right)^{1/r}\leq \left(E[|Y|^r]\right)^{1/r}
(E[∣E[Y∣X]∣r])1/r≤(E[∣Y∣r])1/r
由已知条件可知,这一项也是有限的。
3 扩展
若我们关注 r = 2 r=2 r=2,就变成了CEF error的无条件方差 σ 2 = E [ e 2 ] = Var [ e ] \sigma^2=E[e^2]=\text{Var}[e] σ2=E[e2]=Var[e]。结论重新表述如下:
若 E [ Y 2 ] < ∞ E[Y^2]\lt \infty E[Y2]<∞,则 σ 2 < ∞ \sigma^2\lt \infty σ2<∞。
事实上,若对于多个解释变量,则不断加入解释变量后,残差的方差必将减小,即若
E
[
Y
2
]
<
∞
E[Y^2]\lt \infty
E[Y2]<∞,必有
Var
[
Y
]
≥
Var
[
Y
−
E
[
Y
∣
X
1
]
]
≥
Var
[
Y
−
E
[
Y
∣
X
1
,
X
2
]
]
\text{Var}[Y]\geq \text{Var}[Y-E[Y|X_1]] \geq \text{Var}[Y-E[Y|X_1,X_2]]
Var[Y]≥Var[Y−E[Y∣X1]]≥Var[Y−E[Y∣X1,X2]]
为什么?
证明:先利用
E
[
Y
∣
X
1
]
=
E
[
E
[
Y
∣
X
1
,
X
2
]
∣
X
1
]
E[Y|X_1]=E[E[Y|X_1,X_2]|X_1]
E[Y∣X1]=E[E[Y∣X1,X2]∣X1]和Jensen不等式,我们可以得到
(
E
[
Y
∣
X
1
]
)
2
=
(
E
[
E
[
Y
∣
X
1
,
X
2
]
∣
X
1
]
)
2
≤
E
[
(
E
[
Y
∣
X
1
,
X
2
]
)
2
∣
X
1
]
\left(E[Y|X_1]\right)^2=(E[E[Y|X_1,X_2]|X_1])^2\leq E[\left(E[Y|X_1,X_2]\right)^2|X_1]
(E[Y∣X1])2=(E[E[Y∣X1,X2]∣X1])2≤E[(E[Y∣X1,X2])2∣X1]
两边取期望后有
E
[
(
E
[
Y
∣
X
1
]
)
2
]
≤
E
[
(
E
[
Y
∣
X
1
,
X
2
]
)
2
]
E\left[\left(E[Y|X_1]\right)^2\right] \leq E\left[\left(E[Y|X_1,X_2]\right)^2\right]
E[(E[Y∣X1])2]≤E[(E[Y∣X1,X2])2]
同理,利用
E
[
Y
]
=
E
[
E
[
Y
∣
X
1
]
]
E[Y]=E[E[Y|X_1]]
E[Y]=E[E[Y∣X1]]和Jensen不等式,可得到
(
E
[
Y
]
)
2
≤
E
[
(
E
[
Y
∣
X
1
]
)
2
]
(E[Y])^2\leq E\left[\left(E[Y|X_1]\right)^2\right]
(E[Y])2≤E[(E[Y∣X1])2],与上面的式子放在一起有
(
E
[
Y
]
)
2
≤
E
[
(
E
[
Y
∣
X
1
]
)
2
]
≤
E
[
(
E
[
Y
∣
X
1
,
X
2
]
)
2
]
(E[Y])^2\leq E\left[\left(E[Y|X_1]\right)^2\right] \leq E\left[\left(E[Y|X_1,X_2]\right)^2\right]
(E[Y])2≤E[(E[Y∣X1])2]≤E[(E[Y∣X1,X2])2]
三个地方都同时减去
(
E
[
Y
]
)
2
(E[Y])^2
(E[Y])2,可得
0
≤
Var
[
E
[
Y
∣
X
1
]
]
≤
Var
[
E
[
Y
∣
X
1
,
X
2
]
]
0 \leq \text{Var}\left[E[Y|X_1]\right] \leq \text{Var}\left[E[Y|X_1,X_2]\right]
0≤Var[E[Y∣X1]]≤Var[E[Y∣X1,X2]]
另一方面,我们已有
e
=
Y
−
E
[
Y
∣
X
]
e=Y-E[Y|X]
e=Y−E[Y∣X],再记
u
=
E
[
Y
∣
X
]
−
E
[
Y
]
u=E[Y|X]-E[Y]
u=E[Y∣X]−E[Y],则
E
[
e
u
]
=
0
E[eu]=0
E[eu]=0,因此
Var
[
Y
]
=
Var
[
e
+
u
]
=
Var
[
e
]
+
Var
[
u
]
=
Var
[
Y
−
E
[
Y
∣
X
]
]
+
Var
[
E
[
Y
∣
X
]
]
\begin{aligned} &\text{Var}[Y]\\ =& \text{Var}[e+u]\\ =& \text{Var}[e]+\text{Var}[u]\\ =& \text{Var}[Y-E[Y|X]]+\text{Var}[E[Y|X]] \end{aligned}
===Var[Y]Var[e+u]Var[e]+Var[u]Var[Y−E[Y∣X]]+Var[E[Y∣X]]
而
Var
[
Y
]
\text{Var}[Y]
Var[Y]为常数,因此,
Var
[
E
[
Y
∣
X
]
]
\text{Var}[E[Y|X]]
Var[E[Y∣X]]越大,
Var
[
Y
−
E
[
Y
∣
X
]
]
\text{Var}[Y-E[Y|X]]
Var[Y−E[Y∣X]]越小,即
Var
[
Y
]
≥
Var
[
Y
−
E
[
Y
∣
X
1
]
]
≥
Var
[
Y
−
E
[
Y
∣
X
1
,
X
2
]
]
\text{Var}[Y]\geq \text{Var}[Y-E[Y|X_1]] \geq \text{Var}[Y-E[Y|X_1,X_2]]
Var[Y]≥Var[Y−E[Y∣X1]]≥Var[Y−E[Y∣X1,X2]]