条件数学期望
条件数学期望是随机数学中最基本最重要的概念之一,它在随机过程课程中具有广泛的应用,需要同学们很好地掌握。
条件概率分布
离散型随机变量的条件分布
对于离散型的随机变量
X
X
X 和
Y
(
Y(
Y( 取值范围分别是
I
\mathcal{I}
I 和
J
)
\mathcal{J})
J) ,随机变量
Y
Y
Y 在 ${X=\mathrm{x}} $ 下的条件概率分布是
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \forall j \in …
同样的,
X
X
X 在条件{
Y
=
y
}
Y=y\}
Y=y} 下的条件概率分布是
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \forall i \in …
其中,
P
(
X
=
i
,
Y
=
j
)
P(X=i, Y=j)
P(X=i,Y=j) 是
X
X
X 和
Y
Y
Y 联合分布概率,即
X
=
i
X=i
X=i ,并且
Y
=
j
Y=j
Y=j 发生的概率。如果用
p
i
j
p_{i j}
pij 表示
P
(
X
=
i
,
Y
=
j
)
P(X=i, Y=j)
P(X=i,Y=j) 的值
P
(
X
=
i
,
Y
=
j
)
=
p
i
j
P(X=i, Y=j)=p_{i j}
P(X=i,Y=j)=pij 那么随机变量
X
X
X 和
Y
Y
Y 的边缘分布就是
P
(
X
=
i
)
=
p
i
.
=
∑
j
∈
J
p
i
j
P
(
Y
=
j
)
=
p
.
j
=
∑
i
∈
I
p
i
j
\begin{aligned} &P(X=i)=p_{i .}=\sum_{j \in \mathcal{J}} p_{i j} \\ &P(Y=j)=p_{. j}=\sum_{i \in \mathcal{I}} p_{i j} \end{aligned}
P(X=i)=pi.=j∈J∑pijP(Y=j)=p.j=i∈I∑pij
因此,随机变量
Y
Y
Y 在条件
{
X
=
x
}
\{X=\mathrm{x}\}
{X=x} 下的条件概率分布也可以表达为
p
Y
∣
X
(
j
)
=
P
(
Y
=
j
∣
X
=
i
)
=
p
i
j
p
i
.
(
p
i
.
>
0
)
p_{Y \mid X}(j)=P(Y=j \mid X=i)=\frac{p_{i j}}{p_{i .}} \ \ \ \ \ \left(p_{i .}>0\right)
pY∣X(j)=P(Y=j∣X=i)=pi.pij (pi.>0)
同样的,
X
X
X 在条件{
Y
=
y
}
Y=\mathrm{y}\}
Y=y} 下的条件概率分布也可以表达为
p
X
∣
Y
(
i
)
=
p
i
j
p
.
j
(
p
.
j
>
0
)
p_{X \mid Y}(i)=\frac{p_{i j}}{p_{. j}}\ \ \ \ \ \left(p_{. j}>0\right)
pX∣Y(i)=p.jpij (p.j>0)
连续型随机变量的条件分布
对于连续型的随机变量
X
X
X 和
Y
,
P
(
X
=
i
)
=
P
(
Y
=
j
)
=
0
Y , P(X=i)=P(Y=j)=0
Y,P(X=i)=P(Y=j)=0 ,因此对离散型随机变量的条件分布定义不适用。假设其联合密度函数为
f
(
x
,
y
)
f(x, y)
f(x,y) ,
X
X
X 和
Y
Y
Y 的边缘密度函数分别是
f
X
(
x
)
f_{X}(x)
fX(x) 和
f
Y
(
y
)
f_{Y}(y)
fY(y) , 那么
Y
Y
Y 在条件
{
X
=
x
}
\{X=\mathrm{x}\}
{X=x} 下的条件概率密度函数是
f
Y
∣
X
(
y
∣
x
)
=
f
Y
(
y
∣
X
=
x
)
=
f
(
x
,
y
)
f
X
(
x
)
f_{Y \mid X}(y \mid x)=f_{Y}(y \mid X=x)=\frac{f(x, y)}{f_{X}(x)}
fY∣X(y∣x)=fY(y∣X=x)=fX(x)f(x,y)
同样的,
X
X
X 在条件
{
Y
=
y
}
\{Y=y\}
{Y=y} 下的条件概率密度函数是
f
X
∣
Y
(
x
∣
y
)
=
f
X
(
x
∣
Y
=
y
)
=
f
(
x
,
y
)
f
Y
(
y
)
f_{X \mid Y}(x \mid y)=f_{X}(x \mid Y=y)=\frac{f(x, y)}{f_{Y}(y)}
fX∣Y(x∣y)=fX(x∣Y=y)=fY(y)f(x,y)
称
∫
−
∞
x
f
X
∣
Y
(
x
∣
y
)
d
x
\int_{-\infty}^xf_{X|Y}(x|y)dx
∫−∞xfX∣Y(x∣y)dx
为在条件
{
Y
=
y
}
\{Y=y\}
{Y=y} 下
X
X
X 的条件分布函数,记为
F
X
∣
Y
(
x
∣
y
)
F_{X|Y}(x|y)
FX∣Y(x∣y)
F
X
∣
Y
(
x
∣
y
)
=
∫
−
∞
x
f
X
∣
Y
(
x
∣
y
)
d
x
=
∫
−
∞
x
f
(
x
,
y
)
f
Y
(
y
)
d
x
F_{X|Y}(x|y)=\int_{-\infty}^xf_{X|Y}(x|y)dx=\int_{-\infty}^x\frac{f(x, y)}{f_{Y}(y)}dx
FX∣Y(x∣y)=∫−∞xfX∣Y(x∣y)dx=∫−∞xfY(y)f(x,y)dx
条件分布和独立分布
在一定意义上,条件分布和独立分布是相对的。如果两个随机变量
X
X
X 和
Y
Y
Y 是独立分布的,那么不论是否已知某个关于
X
X
X 的条件,都不会影响
Y
Y
Y 的概率分布。用数学语言来说,就是
P
(
Y
=
y
∣
X
=
x
)
=
P
(
Y
=
y
)
=
p
Y
(
y
)
P(Y=y \mid X=x)=P(Y=y)=p_{Y}(y)
P(Y=y∣X=x)=P(Y=y)=pY(y)
这与独立分布的定义是相合的,事实上,随机变量
X
X
X 和
Y
Y
Y 相互独立分布,则
P
(
Y
=
y
,
X
=
x
)
=
P
(
Y
=
y
)
⋅
P
(
X
=
x
)
P(Y=y, X=x)=P(Y=y) \cdot P(X=x)
P(Y=y,X=x)=P(Y=y)⋅P(X=x)
因此
P
(
Y
=
y
)
=
P
(
Y
=
y
,
X
=
x
)
P
(
X
=
x
)
=
P
(
Y
=
y
∣
X
=
x
)
P(Y=y)=\frac{P(Y=y, X=x)}{P(X=x)}=P(Y=y \mid X=x)
P(Y=y)=P(X=x)P(Y=y,X=x)=P(Y=y∣X=x)
离散型情形
定义 设二维离散型随机变量$(X , Y)
所
有
可
能
取
的
值
是
所有可能取的值是
所有可能取的值是(x_i,y_j)
,
其
联
合
分
布
律
为
,其联合分布律为
,其联合分布律为P{X=x_i,Y=y_j}=p_{ij}\geq 0$,记
E
{
X
∣
Y
}
=
^
∑
j
I
(
Y
=
y
j
)
(
ω
)
E
{
X
∣
Y
=
y
j
}
E\{X\mid Y\}\hat{=}\sum_j I_{(Y=y_j)}(\omega)E\{X\mid Y=y_j\}
E{X∣Y}=^j∑I(Y=yj)(ω)E{X∣Y=yj}
称$ E{X\mid Y}
为
为
为 X
关
于
关于
关于Y $的条件数学期望。
|
E
(
X
∣
Y
)
E(X|Y)
E(X∣Y) |
E
(
X
∣
Y
=
y
1
)
E(X|Y=y_1)
E(X∣Y=y1) |
E
(
X
∣
Y
=
y
2
)
E(X|Y=y_2)
E(X∣Y=y2) |
⋯
\cdots
⋯ |
E
(
X
∣
Y
=
y
j
)
E(X|Y=y_j)
E(X∣Y=yj) |
| :--------------------: | :----------: | :----------: | :------: | :----------: |
|
P
(
E
(
X
∣
Y
)
=
E
(
X
∣
Y
=
y
j
)
)
P(E(X|Y)=E(X|Y=y_j))
P(E(X∣Y)=E(X∣Y=yj)) |
P
(
Y
=
y
1
)
P(Y=y_1)
P(Y=y1) |
P
(
Y
=
y
2
)
P(Y=y_2)
P(Y=y2) |
⋯
\cdots
⋯ |
P
(
Y
=
y
j
)
P(Y=y_j)
P(Y=yj) |
注 1 定义中的
I
(
Y
=
y
j
)
(
ω
)
I_{(Y=y_j)}(\omega)
I(Y=yj)(ω)是示性函数,即
KaTeX parse error: No such environment: align* at position 36: …=\left\{ \begin{̲a̲l̲i̲g̲n̲*̲}̲ 1&,\ \ \ \omeg…
注 2 条件数学期望$ E{X\mid Y}
是
随
机
变
量
是随机变量
是随机变量Y $的函数,因此有关于它的分布,其分布为
当
E
{
X
∣
Y
=
y
j
}
≠
E
{
X
∣
Y
=
y
k
}
(
j
≠
k
)
E\{X\mid Y=y_j\}\neq E\{X\mid Y=y_k\}(j\neq k)
E{X∣Y=yj}=E{X∣Y=yk}(j=k)时,
P
{
E
{
X
∣
Y
}
=
E
{
X
∣
Y
=
y
j
}
}
=
P
{
Y
=
y
j
}
P\{E\{X\mid Y\}=E\{X\mid Y=y_j\}\}=P\{Y=y_j\}
P{E{X∣Y}=E{X∣Y=yj}}=P{Y=yj}
否则,令
D
j
=
{
k
:
E
{
X
∣
Y
=
y
k
}
=
E
{
X
∣
Y
=
y
j
}
}
D_j=\{k:E\{X\mid Y=y_k\}=E\{X\mid Y=y_j\}\}
Dj={k:E{X∣Y=yk}=E{X∣Y=yj}},则
P
{
E
{
X
∣
Y
}
=
E
{
X
∣
Y
=
y
j
}
}
=
∑
k
∈
D
j
P
{
Y
=
y
k
}
P\{E\{X\mid Y\}=E\{X\mid Y=y_j\}\}=\sum_{k\in D_j} P\{Y=y_k\}
P{E{X∣Y}=E{X∣Y=yj}}=k∈Dj∑P{Y=yk}
注 3 由于条件数学期望$ E{X\mid Y}
是
随
机
变
量
是随机变量
是随机变量Y $的函数,故可以求其数学期望,其数学期望为
E
{
E
{
X
∣
Y
}
}
=
∑
j
E
{
X
∣
Y
=
y
j
}
P
{
Y
=
y
j
}
=
E
{
X
}
E\{E\{X\mid Y\}\}=\sum_j E\{X\mid Y=y_j\}P\{Y=y_j\}=E\{X\}
E{E{X∣Y}}=j∑E{X∣Y=yj}P{Y=yj}=E{X}
维基百科定义
设
X
X
X 和
Y
Y
Y 是离散随机变量,则
X
X
X 在给定事件
Y
=
y
Y=y
Y=y 条件时的条件期望是
x
x
x 的在
Y
Y
Y 的值域的函数
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ E(X|Y=y)&=\sum…
其中,
χ
\chi
χ 是处于
X
X
X 的值域。
例 9 离散型随机变量$(X ,Y) 的 联 合 分 布 律 如 下 表 所 示 , 试 求 的联合分布律如下表所示,试求 的联合分布律如下表所示,试求 E{X\mid Y}$的分布律, E { X } , E { E { X ∣ Y } } E\{X\}, E\{E\{X \mid Y\}\} E{X},E{E{X∣Y}}。
Y / X | 1 | 2 | 3 | p ⋅ j p_{\cdot j} p⋅j |
---|---|---|---|---|
1 | 2/27 | 4/27 | 1/27 | 7/27 |
2 | 5/27 | 7/27 | 3/27 | 15/27 |
3 | 1/27 | 2/27 | 2/27 | 5/27 |
p i ⋅ p_{i\cdot} pi⋅ | 8/27 | 13/27 | 6/27 | 1 |
连续型情形
定义 设二维随机变量具有联合分布密度函数$ f (x, y)$ ,$Y 的 边 缘 分 布 为 的边缘分布为 的边缘分布为 f_Y ( y) , 若 随 机 变 量 ,若随机变量 ,若随机变量 E{X\mid Y}$满足
(a)$ E{X\mid Y} 是 随 机 变 量 是随机变量 是随机变量Y 的 函 数 , 当 的函数,当 的函数,当Y = y 时 , 它 的 取 值 为 时,它的取值为 时,它的取值为 E{X\mid Y=y}$;
(b)对于任意的事件$ D $,有
E
{
E
{
X
∣
Y
}
∣
Y
∈
D
}
=
E
{
X
∣
Y
∈
D
}
E\{E\{X\mid Y\}\mid Y\in D\}=E\{X\mid Y \in D\}
E{E{X∣Y}∣Y∈D}=E{X∣Y∈D}
则称随机变量$ E{X\mid Y}
为
为
为 X
关
于
关于
关于Y $的条件数学期望。
维基百科定义
如果现在
X
X
X 是一个连续随机变量,而
Y
Y
Y 仍然是一个离散变量,条件期望是
E
{
X
∣
Y
=
y
}
=
∫
−
∞
+
∞
x
f
X
(
x
∣
Y
=
y
)
d
x
E\{X|Y=y\}=\int_{-\infty}^{+\infty}xf_{X}(x|Y=y)dx
E{X∣Y=y}=∫−∞+∞xfX(x∣Y=y)dx
其中,
f
X
(
⋅
∣
Y
=
y
)
f_X(\cdot\mid Y=y)
fX(⋅∣Y=y) 是在给定
Y
=
y
Y=y
Y=y 下
X
X
X 的条件概率密度函数。
注 1 由于条件数学期望$ E{X\mid Y}
是
随
机
变
量
是随机变量
是随机变量Y $的函数,故可以求其数学期望,其数学期望为
E
{
E
{
X
∣
Y
}
}
=
∫
−
∞
+
∞
E
(
X
∣
Y
=
y
)
f
Y
(
y
)
d
y
=
E
{
X
}
E\{E\{X\mid Y\}\}=\int_{-\infty}^{+\infty}E(X\mid Y=y)f_Y(y)dy=E\{X\}
E{E{X∣Y}}=∫−∞+∞E(X∣Y=y)fY(y)dy=E{X}
例 10 设
(
X
,
Y
)
∼
N
(
μ
1
,
μ
2
,
ρ
,
σ
1
2
,
σ
2
2
)
(X,Y)\sim N(\mu_1,\mu_2,\rho,\sigma_1^2,\sigma_2^2)
(X,Y)∼N(μ1,μ2,ρ,σ12,σ22),则有
E
{
Y
∣
X
=
x
}
=
μ
2
+
ρ
σ
2
σ
1
(
x
−
μ
1
)
E
{
Y
∣
X
}
=
μ
2
+
ρ
σ
2
σ
1
(
X
−
μ
1
)
E\{Y\mid X=x\}=\mu_2+\rho\frac{\sigma_2}{\sigma_1}(x-\mu_1)\\ E\{Y\mid X\}=\mu_2+\rho\frac{\sigma_2}{\sigma_1}(X-\mu_1)
E{Y∣X=x}=μ2+ρσ1σ2(x−μ1)E{Y∣X}=μ2+ρσ1σ2(X−μ1)
解 先求$Y
关
于
关于
关于 X = x $的条件分布密度,
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ &f_{Y\mid X=x}…
即
f
Y
∣
X
=
x
(
y
∣
x
)
∼
N
[
μ
2
+
ρ
σ
2
σ
1
−
1
(
x
−
μ
1
)
,
σ
2
2
(
1
−
ρ
2
)
]
f_{Y\mid X=x}(y\mid x)\sim N[\mu_2+\rho\sigma_2\sigma_1^{-1}(x-\mu_1),\sigma_2^2(1-\rho^2)]
fY∣X=x(y∣x)∼N[μ2+ρσ2σ1−1(x−μ1),σ22(1−ρ2)]
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ E\{Y\mid X=x\}…
E { Y ∣ X } = μ 2 + ρ σ 2 σ 1 − 1 ( X − μ 1 ) E\{Y\mid X\}=\mu_2+\rho\sigma_2\sigma_1^{-1}(X-\mu_1) E{Y∣X}=μ2+ρσ2σ1−1(X−μ1)
条件数学期望的性质
在各给定的随机变量的数学期望存在的条件下,我们有
(a) E { X } = E { E { X ∣ Y } } E\{X\} = E\{E\{X\mid Y\}\} E{X}=E{E{X∣Y}};
(b) E { ∑ i = 1 n α i X i ∣ Y } = ∑ i = 1 n α i E { X i ∣ Y } E\left\{\sum_{i=1}^n\alpha_iX_i\mid Y\right\}=\sum_{i=1}^n\alpha_iE\{X_i\mid Y\} E{i=1∑nαiXi∣Y}=i=1∑nαiE{Xi∣Y} a.s. ;其中 α i ( 1 ≤ i ≤ n ) \alpha_i(1\leq i\leq n) αi(1≤i≤n)为常数;
(c) E { g ( X ) h ( Y ) ∣ Y } = h ( Y ) E { g ( X ) ∣ Y } E\{g(X )h(Y) |Y\} = h(Y)E\{g(X ) |Y\} E{g(X)h(Y)∣Y}=h(Y)E{g(X)∣Y} a.s. ;
(d) E { g ( X ) h ( Y ) } = E { h ( Y ) E { g ( X ) ∣ Y } } E\{g(X )h(Y)\} = E\{h(Y)E\{g(X )| Y\}\} E{g(X)h(Y)}=E{h(Y)E{g(X)∣Y}};
(e) 如果$ X$ ,$ Y 独 立 , 则 有 独立,则有 独立,则有 E{X| Y} = E{X}$;
注 a.s. 是“almost sure”的简写,意思是“基本确定”。在一般意义下,公式所得结论在一个集合以内的任何情况下成立,以外的集合基本没有。或者,在概率论中也称为以概率基本为一,即结论不成立的概率为零。
证明 设
(
X
,
Y
)
∼
f
(
x
,
y
)
(X ,Y) \sim f (x, y)
(X,Y)∼f(x,y),则有
KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ E\{g(X)h(Y)\}&…
注 1 常用的计算式子
E
{
g
(
X
)
h
(
y
)
}
=
∫
−
∞
+
∞
E
{
g
(
X
)
∣
Y
=
y
}
h
(
x
)
f
Y
(
y
)
d
y
E\{g(X)h(y)\}=\int_{-\infty}^{+\infty}E\{g(X)\mid Y=y\}h(x)f_Y(y)dy
E{g(X)h(y)}=∫−∞+∞E{g(X)∣Y=y}h(x)fY(y)dy
P { A } = ∫ − ∞ + ∞ P { A ∣ Y = y } f Y ( y ) d y P\{A\}=\int_{-\infty}^{+\infty}P\{A\mid Y=y\}f_Y(y)dy P{A}=∫−∞+∞P{A∣Y=y}fY(y)dy
P { X ≤ x } = ∫ − ∞ + ∞ P { X ≤ x ∣ Y = y } f Y ( y ) d y P\{X\leq x\}=\int_{-\infty}^{+\infty}P\{X\leq x\mid Y=y\}f_Y(y)dy P{X≤x}=∫−∞+∞P{X≤x∣Y=y}fY(y)dy