1. 条件期望
1.1 定义
设
X
X
X和
Y
Y
Y是离散随机变量,则
X
X
X在给定事件
Y
=
y
{\displaystyle Y=y}
Y=y条件时的条件期望是
x
x
x的在
Y
Y
Y的值域的函数
E
(
X
∣
Y
=
y
)
=
∑
x
∈
X
x
P
(
X
=
x
∣
Y
=
y
)
=
∑
x
∈
X
x
P
(
X
=
x
,
Y
=
y
)
P
(
Y
=
y
)
\operatorname {E}(X|Y=y)=\sum _{{x\in {\mathcal {X}}}}x\ \operatorname {P}(X=x|Y=y)=\sum _{{x\in {\mathcal {X}}}}x\ {\frac {\operatorname {P}(X=x,Y=y)}{\operatorname {P}(Y=y)}}
E(X∣Y=y)=x∈X∑x P(X=x∣Y=y)=x∈X∑x P(Y=y)P(X=x,Y=y)其中,
X
{\mathcal {X}}
X是处于
X
X
X的值域。
如果现在 X X X是一个连续随机变量,而 Y Y Y仍然是一个离散变量,条件期望是 E ( X ∣ Y = y ) = ∫ X x f X ( x ∣ Y = y ) d x {E}(X|Y=y)=\int _{{{\mathcal {X}}}}xf_{X}(x|Y=y)dx E(X∣Y=y)=∫XxfX(x∣Y=y)dx其中, f X ( ⋅ ∣ Y = y ) f_{X}(\,\cdot \,|Y=y) fX(⋅∣Y=y)是在给定 Y = y Y=y Y=y下 X X X的条件概率密度函数。
1.2 概念对比
- E ( X ) E(X) E(X)是一个数值
- E ( X ∣ Y ) E(X|Y) E(X∣Y)是一个关于 Y Y Y的函数,是一个随机变量
- E ( X ∣ Y = y ) E(X|Y=y) E(X∣Y=y)是一个定值
1.3 条件期望的性质
- 迭代期望定律: E ( E ( X ∣ Y ) ) = E ( X ) E(E(X|Y))=E(X) E(E(X∣Y))=E(X)
- 对于任意函数 g g g,有 E [ g ( Y ) ∣ Y ] = g ( Y ) E[g(Y)|Y]=g(Y) E[g(Y)∣Y]=g(Y)
- 若 X X X和 Y Y Y相互独立,则 E ( X ∣ Y ) = E ( X ) E(X|Y)=E(X) E(X∣Y)=E(X)
- 若 E ( X ∣ Y ) = E ( X ) E(X|Y)=E(X) E(X∣Y)=E(X),则 Cov ( X , Y ) = 0 \operatorname{Cov}(X,Y)=0 Cov(X,Y)=0
- 若 X X X是 F \mathcal{F} F可测,则 E ( X ∣ F ) = X E(X|\mathcal{F})=X E(X∣F)=X
2. 条件方差
2.1 定义
- 方差: Var ( X ) = E [ ( X − μ ) 2 ] = E ( X 2 ) − [ E ( X ) ] 2 \operatorname{Var}(X)=E[(X-\mu)^2]=E(X^2)-[E(X)]^2 Var(X)=E[(X−μ)2]=E(X2)−[E(X)]2
- 条件方差: Var ( X ∣ Y ) = E [ ( X − E ( X ∣ Y ) ) 2 ∣ Y ] = E ( X 2 ∣ Y ) − [ E ( X ∣ Y ) ] 2 \operatorname{Var}(X|Y)=E[(X-E(X|Y))^2|Y]=E(X^2|Y)-[E(X|Y)]^2 Var(X∣Y)=E[(X−E(X∣Y))2∣Y]=E(X2∣Y)−[E(X∣Y)]2
2.2 方差分解 Var ( X ) = Var [ E ( X ∣ Y ) ] + E [ Var ( X ∣ Y ) ] \operatorname{Var}(X)=\operatorname{Var}[E(X|Y)]+E[\operatorname{Var}(X|Y)] Var(X)=Var[E(X∣Y)]+E[Var(X∣Y)]
证明:对于一个随机变量 X X X,定义: g ( Y ) = E ( X ∣ Y ) , ϵ = X − g ( Y ) g(Y)=E(X|Y),\epsilon=X-g(Y) g(Y)=E(X∣Y),ϵ=X−g(Y)可知: E ( ϵ ) = E ( X ) − E [ E ( X ∣ Y ) ] = 0 E(\epsilon)=E(X)-E[E(X|Y)]=0 E(ϵ)=E(X)−E[E(X∣Y)]=0此时, X X X的方差 Var ( X ) = Var [ g ( Y ) + ϵ ] = Var [ g ( Y ) ] + Var ( ϵ ) + 2 Cov [ g ( Y ) , ϵ ] \operatorname{Var}(X)=\operatorname{Var}[g(Y)+\epsilon]=\operatorname{Var}[g(Y)]+\operatorname{Var}(\epsilon)+2\operatorname{Cov}[g(Y),\epsilon] Var(X)=Var[g(Y)+ϵ]=Var[g(Y)]+Var(ϵ)+2Cov[g(Y),ϵ]根据协方差的定义,有 Cov [ g ( Y ) , ϵ ] = E [ [ g ( Y ) − E ( g ( Y ) ) ] [ ϵ − E ( ϵ ) ] ] = 0 \operatorname{Cov}[g(Y),\epsilon]=E\Bigl[[g(Y)-E(g(Y))][\epsilon-E(\epsilon)]\Bigr]=0 Cov[g(Y),ϵ]=E[[g(Y)−E(g(Y))][ϵ−E(ϵ)]]=0又 Var ( ϵ ) = E [ X − g ( Y ) ] 2 = E [ X 2 + g ( Y ) 2 − 2 X g ( Y ) ] = E [ E [ X 2 ∣ Y ] − g ( Y 2 ) ] = E [ Var ( X ∣ Y ) ] \operatorname{Var}(\epsilon)=E[X-g(Y)]^2=E[X^2+g(Y)^2-2Xg(Y)]=E[E[X^2|Y]-g(Y^2)]=E[\operatorname{Var}(X|Y)] Var(ϵ)=E[X−g(Y)]2=E[X2+g(Y)2−2Xg(Y)]=E[E[X2∣Y]−g(Y2)]=E[Var(X∣Y)]得证