漫步数理统计十七——条件分布与期望

最新推荐文章于 2022-04-01 15:06:02 发布

会敲键盘的猩猩

最新推荐文章于 2022-04-01 15:06:02 发布

阅读量3.2k

点赞数 2

分类专栏：漫步数理统计文章标签：条件分布条件期望

漫步数理统计专栏收录该内容

34 篇文章 51 订阅

订阅专栏

前面我们介绍了一对随机变量的联合概率分布，也说明了如何从联合分布中恢复出单个随机变量(边缘)的分布。现在我们讨论条件分布，即其他随机变量假设为特定值，求一个随机变量的分布，首先讨论离散情况。

令 $X_1,X_2$ 表示离散随机变量，联合pmf为 $p_{X_1,X_2}(x_1,x_2)$ ，其在支撑集 $\textbf{S}$ 上是正的，其他地方为零。令 $p_{X_1}(x_1),p_{X_2}(x_2)$ 分别表示 $X_1,X_2$ 的边缘概率密度函数， $x_1$ 是 $X_1$ 支撑中的点；因此 $p_{X_1}(x_1)>0$ ，利用条件概率定义，对于 $X_2$ 支撑 $\textbf{S}_{X_2}$ 中的所有 $x_2$ ，我们有

P (X 2 = x 1 | X 1 = x 1) = P ( X 1 = x 1 , X 2 = x 2 ) P ( X 1 = x 1 ) = p X 1 , X 2 ( x 1 , x 2 ) p X 1 ( x 1 )

$P(X_2=x_1|X_1=x_1)=\frac{P(X_1=x_1,X_2=x_2)}{P(X_1=x_1)}=\frac{p_{X_1,X_2}(x_1,x_2)}{p_{X_1}(x_1)}$

将这个函数定义为

p X 2 | X 1 (x 2 | x 1) = p X 1 , X 2 ( x 1 , x 2 ) p X 1 ( x 1 ), x 2 \in S X 2

$p_{X_2|X_1}(x_2|x_1)=\frac{p_{X_1,X_2}(x_1,x_2)}{p_{X_1}(x_1)},\quad x_2\in\textbf{S}_{X_2}$

对于任意满足 $p_{X_1}(x_1)>0$ 的固定 $x_1$ ，函数 $p_{X_2|X_1}(x_2|x_1)$ 满足离散pmf的条件，因为 $p_{X_2|X_1}(x_2|x_1)$ 是非负的且

\sum x 2 p X 2 | X 1 (x 2 | x 1) = \sum x 2 p X 1 , X 2 ( x 1 , x 2 ) p X 1 ( x 1 ) = 1 p X 1 ( x 1 ) \sum x 2 p X 1, X 2 (x 1, x 2) = p X 1 ( x 1 ) p X 1 ( x 1 ) = 1

$\sum_{x_2}p_{X_2|X_1}(x_2|x_1)=\sum_{x_2}\frac{p_{X_1,X_2}(x_1,x_2)}{p_{X_1}(x_1)}=\frac{1}{p_{X_1}(x_1)}\sum_{x_2}p_{X_1,X_2}(x_1,x_2)=\frac{p_{X_1}(x_1)}{p_{X_1}(x_1)}=1$

我们称 $p_{X_2|X_1}(x_2|x_1)$ 是给定离散随机变量 $X_1=x_1$ 的条件下，离散随机变量 $X_2$ 的条件pmf。同样的，假设 $x_2\in\textbf{S}_{X_2}$ ，我们将符号 $p_{X_1|X_2}(x_1|x_2)$ 定义为

p X 1 | X 2 (x 1 | x 2) = p X 1 , X 2 ( x 1 , x 2 ) p X 2 ( x ) 2 ), x 1 \in S X 1

$p_{X_1|X_2}(x_1|x_2)=\frac{p_{X_1,X_2}(x_1,x_2)}{p_{X_2}(x)2)},\quad x_1\in\textbf{S}_{X_1}$

我们称 $p_{X_1|X_2}(x_1|x_2)$ 是给定离散随机变量 $X_2=x_2$ 的条件下，离散随机变量 $X_1$ 的条件pmf。我们常将 $p_{X_1|X_2}(x_1|x_2)$ 缩写成 $p_{1|2}(x_1|x_2)$ ， $p_{X_2|X_1}(x_2|x_1)$ 缩写成 $p_{2|1}(x_2|x_1)$ ，同样的 $p_1(x_1),p_2(x_2)$ 分别表示边缘pmf。

现在令 $X_1,X_2$ 表示连续随机变量且联合pdf为 $f_{X_1,X_2}(x_1,x_2)$ ，边缘概率密度函数分别为 $f_{X_1}(x_1),f_{X_2}(x_2)$ ，我们将使用前面的结论来推出连续随机变量的条件pdf，当 $f_{X_1}(x_1)>0$ 时，我们将符号 $f_{X_2|X_1}(x_2|x_1)$ 定义为

f X 2 | X 1 (x 2 | x 1) = f X 1 , X 2 ( x 1 , x 2 ) f X 1 ( x 1 )

$f_{X_2|X_1}(x_2|x_1)=\frac{f_{X_1,X_2}(x_1,x_2)}{f_{X_1}(x_1)}$

在这个关系中，可将 $x_1$ 看成是满足 $f_{X_1}(x_1)>0$ 的固定值(但是是任意固定的)，很明显 $f_{X_2|X_1}(x_2|x_1)$ 是非负的且

\int \infty - \infty f X 2 | X 1 (x 2 | x 1) d x 2 = \int \infty - \infty f X 1 , X 2 ( x 1 , x 2 ) f X 1 ( x 1 ) d x 2 = 1 f X 1 ( x 1 ) \int \infty - \infty f X 1, X 2 (x 1, x 2) d x 2 = 1 f X 1 ( x 1 ) f X 1 (x 1) = 1

$\begin{align*} \int_{-\infty}^{\infty}f_{X_2|X_1}(x_2|x_1)dx_2 &=\int_{-\infty}^{\infty}\frac{f_{X_1,X_2}(x_1,x_2)}{f_{X_1}(x_1)}dx_2\\ &=\frac{1}{f_{X_1}(x_1)}\int_{-\infty}^{\infty}f_{X_1,X_2}(x_1,x_2)dx_2\\ &=\frac{1}{f_{X_1(x_1)}}f_{X_1(x_1)}=1 \end{align*}$

即 $f_{X_2|X_1}(x_2|x_1)$ 满足连续随机变量pdf的性质，我们称它为给定连续随机变量 $X_1$ 的值 $x_1$ 时，连续随机变量 $X_2$ 的条件pdf。当 $f_{X_2}(x_2)>0$ ，给定连续随机变量 $X_2$ 的值 $x_2$ 时，连续随机变量 $X_1$ 的条件pdf定义为

f X 1 | X 2 (x 1 | x 2) = f X 1 , X 2 ( x 1 , x 2 ) f X 2 ( x 2 ), f X 2 (x 2) > 0

$f_{X_1|X_2}(x_1|x_2)=\frac{f_{X_1,X_2}(x_1,x_2)}{f_{X_2}(x_2)},\quad f_{X_2}(x_2)>0$

我们常将这些条件pdf缩写成 $f_{1|2}(x_1|x_2),f_{2|1}(x_2|x_1)$ ，同样的 $f_1(x_1),f_2(x_2)$ 将分别表示边缘pdf。

因为 $f_{2|1}(x_2|x_1),f_{1|2}(x_1|x_2)$ 是随机变量的pdf，每个都满足pdf的性质，所以我们可以计算概率以及数学期望，如果随机变量是连续形的，那么概率

P (a < X 2 < b | X 1 = x 1) = \int b a f 2 | 1 (x 2 | x 1) d x 2

$P(a<X_2<b|X_1=x_1)=\int_a^bf_{2|1}(x_2|x_1)dx_2$

称为给定 $X_1=x_1,a<X_2<b$ 的条件概率，在不引起歧义的情况下，我们可以写成 $P(a<X_2<b|x_1)$ 。同样的，给定 $X_2=x_2,c<X_1<d$ 的条件概率为

P (c < X 1 < d | X 2 = x 2) = \int d c f 1 | 2 (x 1 | x 2) d x 1

$P(c<X_1<d|X_2=x_2)=\int_c^df_{1|2}(x_1|x_2)dx_1$

如果 $u(X_2)$ 是 $x_2$ 的函数，那么给定 $X_1=x_1,u(X_2)$ 的条件期望(如果存在的话)为

E [u (X 2) | x 1] = \int \infty - \infty u (x 2) f 2 | 1 (x 2 | x 1) d x 2

$E[u(X_2)|x_1]=\int_{-\infty}^{\infty}u(x_2)f_{2|1}(x_2|x_1)dx_2$

特别地，如果他们存在的话，那么 $E(X_2|x_1)$ 与 $E\{[X_2-E(X_2|x_1)]^2|x_1\}$ 分别表示给定 $X_1=x_1$ 后 $X_2$ 条件分布的均值与方差，方差可以简写为 $var(X_2|x_1)$ ，从之前的结论我们知道

v a r (X 2 | x 1) = E (X 22 | x 1) - [E (X 2 | x 1)] 2

$var(X_2|x_1)=E(X_2^2|x_1)-[E(X_2|x_1)]^2$

同样的，给定 $X_2=x_2$ ， $u(X_1)$ 的条件期望(如果存在的话)为

E [u (X 1) | x 2] = \int \infty - \infty u (x 1) f 1 | 2 (x 1 | x 2) d x 1

$E[u(X_1)|x_2]=\int_{-\infty}^{\infty}u(x_1)f_{1|2}(x_1|x_2)dx_1$

对于离散随机变量，只需要将积分符号变成求和符号即可，如下面例子所示。

$\textbf{例1：}$ $X_1,X_2$ 的联合pdf为

f (x 1, x 2) = {20 0 < x 1 < x 2 < 1 e l s e w h e r e

$f(x_1,x_2)= \begin{cases} 2&0<x_1<x_2<1\\ 0&elsewhere \end{cases}$

那么边缘概率密度函数分别是

f 1 (x 1) = {\int 1 x 1 2 d x 2 = 2 (1 - x 1) 0 0 < x 1 < 1 e l s e w h e r e

$f_1(x_1)= \begin{cases} \int_{x_1}^12dx_2=2(1-x_1)&0<x_1<1\\ 0&elsewhere \end{cases}$

和

f 2 (x 2) = {\int x 2 0 2 d x 1 = 2 x 2 0 0 < x 2 < 1 e l s e w h e r e

$f_2(x_2)= \begin{cases} \int_{0}^{x_2}2dx_1=2x_2&0<x_2<1\\ 0&elsewhere \end{cases}$

给定 $X_2=x_2,0<x_2<1$ ， $X_1$ 的条件pdf为

f 1 | 2 (x 1 | x 2) = {2 2 x 2 = 1 x 2 0 0 < x 1 < x 2 e l s e w h e r e

$f_{1|2}(x_1|x_2)= \begin{cases} \frac{2}{2x_2}=\frac{1}{x_2}&0<x_1<x_2\\ 0&elsewhere \end{cases}$

这里给定 $X_2=x_2$ ， $X_1$ 的条件均值与条件期望分别为

E (X 1 | x 2) = \int \infty - \infty x 1 f 1 | 2 (x 1 | x 2) d x 1 = \int x 2 0 x 1 (1 x 2) d x 1 = x 2 2, 0 < x 2 < 1

$\begin{align*} E(X_1|x_2) &=\int_{-\infty}^{\infty}x_1f_{1|2}(x_1|x_2)dx_1\\ &=\int_{0}^{x_2}x_1\left(\frac{1}{x_2}\right)dx_1\\ &=\frac{x_2}{2},\ 0<x_2<1 \end{align*}$

和

v a r (X 1 | x 2) = \int x 2 0 (x 1 - x 2 2) 2 (1 x 2) d x 1 = x 2 2 12, 0 < x 2 < 1

$\begin{align*} var(X_1|x_2) &=\int_{0}^{x_2}\left(x_1-\frac{x_2}{2}\right)^2\left(\frac{1}{x_2}\right)dx_1\\ &=\frac{x_2^2}{12},\ 0<x_2<1 \end{align*}$

最后，我们将计算

P (0 < X 1 < 1 2 | X 2 = 3 4) p (0 < X 1 < 1 2)

$P(0<X_1<\frac{1}{2}|X_2=\frac{3}{4})\quad p(0<X_1<\frac{1}{2})$

的值，我们有

P (0 < X 1 < 1 2 | X 2 = 3 4) = \int 1 / 2 0 f 1 | 2 (x 1 | 3 4) = \int 1 / 2 0 (4 3) d x 1 = 2 3

$P(0<X_1<\frac{1}{2}|X_2=\frac{3}{4})=\int_0^{1/2}f_{1|2}(x_1|\frac{3}{4})=\int_0^{1/2}(\frac{4}{3})dx_1=\frac{2}{3}$

但是

P (0 < X 1 < 1 2) = \int 1 / 2 0 f 1 (x 1) d x 1 = \int 1 / 2 0 2 (1 - x 1) d x 1 = 3 4

$P(0<X_1<\frac{1}{2})=\int_0^{1/2}f_1(x_1)dx_1=\int_0^{1/2}2(1-x_1)dx_1=\frac{3}{4}$

因为 $E(X_2|X_1)$ 是 $x_1$ 的函数，那么 $E(X_2|X_1)$ 是随机变量，其有自己分布、期望与方差，现在举例说明这种情况。

$\textbf{例2：}$ 令 $X_1,X_2$ 的联合pdf为

f (x 1, x 2) = {6 x 2 0 0 < x 2 < x 1 < 1 e l s e w h e r e

$f(x_1,x_2)= \begin{cases} 6x_2&0<x_2<x_1<1\\ 0&elsewhere \end{cases}$

那么 $X_1$ 的边缘pdf为

f 1 (x 1) = \int x 1 0 6 x 2 d x 2 = 3 x 21, 0 < x 1 < 1

$f_1(x_1)=\int_0^{x_1}6x_2dx_2=3x_1^2,\ 0<x_1<1$

其余地方为零。给定 $X_1=x_1$ ， $X_2$ 的条件pdf为

f 2 | 1 (x 2 | x 1) = 6 x 2 3 x 2 1 = 2 x 2 x 2 1, 0 < x 2 < x 1

$f_{2|1}(x_2|x_1)=\frac{6x_2}{3x_1^2}=\frac{2x_2}{x_1^2},\ 0<x_2<x_1$

其余地方为零，其中 $0<x_1<1$ 。给定 $X_1=x_1$ ， $X_2$ 的条件均值为

E (X 2 | x 1) = \int x 1 0 x 2 (2 x 2 x 2 1) d x 2 = 2 3 x 1, 0 < x 1 < 1

$E(X_2|x_1)=\int_{0}^{x_1}x_2\left(\frac{2x_2}{x_1^2}\right)dx_2=\frac{2}{3}x_1,\ 0<x_1<1$

现在 $E(X_2|X_1)=2X_1/3$ 是一个随机变量，用 $Y$ 表示，那么 $Y=2X_1/3$ 的cdf为

G (y) = P (Y \leq y) = P (X 1 \leq 3 y 2), 0 \leq y < 2 3

$G(y)=P(Y\leq y)=P\left(X_1\leq\frac{3y}{2}\right),\ 0\leq y<\frac{2}{3}$

根据 $f_1(x_1)$ 的pdf我们有

G (y) = \int 3 y / 2 0 3 x 21 d x 1 = 27 y 3 8, 0 \leq y < 2 3

$G(y)=\int_0^{3y/2}3x_1^2dx_1=\frac{27y^3}{8},\ 0\leq y<\frac{2}{3}$

当然，如果 $y<0,G(y)=0$ ，如果 $\frac{2}{3}<y,G(y)=1$ ， $Y=2X_1/3$ 的pdf、均值与方差为

g (y) = 81 y 2 8, 0 \leq y < 2 3

$g(y)=\frac{81y^2}{8},\ 0\leq y<\frac{2}{3}$

其余地方为零，

E (Y) = \int 2 / 3 0 y (81 y 2 8) d y = 1 2

$E(Y)=\int_0^{2/3}y\left(\frac{81y^2}{8}\right)dy=\frac{1}{2}$

和

v a r (Y) = \int 2 / 3 0 y 2 (81 y 2 8) d y - 1 4 = 1 60

$var(Y)=\int_0^{2/3}y^2\left(\frac{81y^2}{8}\right)dy-\frac{1}{4}=\frac{1}{60}$

因为 $X_2$ 的边缘pdf为

f 2 (x 2) = \int 1 x 2 6 x 2 d x 1 = 6 x 2 (1 - x 2), 0 < x 2 < 1

$f_2(x_2)=\int_{x_2}^16x_2dx_1=6x_2(1-x_2),\ 0<x_2<1$

其余地方为零，很容易说明 $E(X_2)=\frac{1}{2},var(X_2)=\frac{1}{20}$ ，即

E (Y) = E [E (X 2 | X 1)] = E (X 2)

$E(Y)=E[E(X_2|X_1)]=E(X_2)$

和

v a r (Y) = v a r [E (X 2 | X 1)] \leq v a r (X 2)

$var(Y)=var[E(X_2|X_1)]\leq var(X_2)$

例2是个非常好的例子，因为它让我们回顾了求随机变量函数分布的cdf方法，而且最后两个等式不是偶然的，一般情况下就是为真。

$\textbf{定理1：}$ $(X_1,X_2)$ 是随机向量，使得 $X_2$ 的方差是有限的，那么

$E[E(X_2|X_1)]=E(X_2)$
$var[E(X_2|X_1)]\leq var(X_2)$

$\textbf{证明：}$ 这里证明的是连续情况，对于离散情况只需要将积分符号换成离散符号即可。首先证明 $(a)$ ，注意

E (X 2) = \int \infty - \infty \int \infty - \infty x 2 f (x 1, x 2) d x 2 d x 1 = \int \infty - \infty [\int \infty - \infty x 2 f ( x 1 , x 2 ) f 1 ( x 1 ) d x 2] f 1 (x 1) d x 1 = \int \infty - \infty E (X 2 | x 1) f 1 (x 1) d x 1 = E [E (X 2 | X 1)]

$\begin{align*} E(X_2) &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}x_2f(x_1,x_2)dx_2dx_1\\ &=\int_{-\infty}^{\infty}\left[\int_{-\infty}^{\infty}x_2\frac{f(x_1,x_2)}{f_1(x_1)}dx_2\right]f_1(x_1)dx_1\\ &=\int_{-\infty}^{\infty}E(X_2|x_1)f_1(x_1)dx_1\\ &=E[E(X_2|X_1)] \end{align*}$

接下里证明 $(b)$ ，考虑 $\mu_2=E(X_2)$ ，

v a r (X 2) = E [(X 2 - μ 2) 2] = E {[X 2 - E (X 2 | X 1) + E (X 2 | X 1) - μ 2] 2} = E {[X 2 - E (X 2 | X 1)] 2} + E {[E (X 2 | X 1) - μ 2] 2} + 2 E {[X 2 - E (X 2 | X 1)] [E (X 2 | X 1) - μ 2]}

$\begin{align*} var(X_2) &=E[(X_2-\mu_2)^2]\\ &=E\{[X_2-E(X_2|X_1)+E(X_2|X_1)-\mu_2]^2\}\\ &=E\{[X_2-E(X_2|X_1)]^2\}+E\{[E(X_2|X_1)-\mu_2]^2\}\\ &\quad +2E\{[X_2-E(X_2|X_1)][E(X_2|X_1)-\mu_2]\} \end{align*}$

我们接下来说明右边的最后一项等于零，

2 \int \infty - \infty \int \infty - \infty [x 2 - E (X 2 | x 1)] [E (X 2 | x 1) - μ 2] f (x 1, x 2) d x 2 d x 1 = 2 \int \infty - \infty [E (X 2 | x 1) - μ 2] {\int \infty - \infty [x 2 - E (X 2 | x 1)] f ( x 1 , x 2 ) f 1 ( x 1 ) d x 2} f 1 (x 1) d x 1

$\begin{align*} &2\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}[x_2-E(X_2|x_1)][E(X_2|x_1)-\mu_2]f(x_1,x_2)dx_2dx_1\\ &=2\int_{-\infty}^{\infty}[E(X_2|x_1)-\mu_2]\left\{\int_{-\infty}^{\infty}[x_2-E(X_2|x_1)]\frac{f(x_1,x_2)}{f_1(x_1)}dx_2\right\}f_1(x_1)dx_1 \end{align*}$

但是 $E(X_2|x_1)$ 是给定 $X_1=x_1$ ， $X_2$ 的条件均值，因为大括号中的表达式等于

E (X 2 | x 1) - E (X 2 | x 1) = 0

$E(X_2|x_1)-E(X_2|x_1)=0$

所以双重积分等于零，故我们有

v a r (X 2) = E {[X 2 - E (X 2 | X 1)] 2} + E {[E (X 2 | X 1) - μ 2] 2}

$var(X_2)=E\{[X_2-E(X_2|X_1)]^2\}+E\{[E(X_2|X_1)-\mu_2]^2\}$

右边的第一项是非负的，因为它是非负函数即 $[X_2-E(X_2|X_1)]^2$ 的期望，因为 $E[E(X_2|X_1)]=\mu_2$ ，第二项为 $var[E(X_2|X_1)]$ ，因此我们有

v a r (X 2) \geq v a r [E (X 2 | X 1)]

$var(X_2)\geq var[E(X_2|X_1)]$

得证。 $||$

直观上这个结论有一个有用的解释，随机变量 $X_2,E(X_2|X_1)$ 均值均为 $\mu_2$ ，如果我们不知道 $\mu_2$ ，那么我们可以用这两个随机变量的任何一个来猜未知量 $\mu_2$ 。然而因为 $var(X_2)\geq var[E(X_2|X_1)]$ ，故我们更相信 $E(X_2|X_1)$ 。即，如果我们观测到 $(X_1,X_2)$ ，我们更愿意用 $E(X_2|x_1)$ 来猜测未知量 $\mu_2$ ，在之后研究估计中的充分统计量时，我们会利用这个结论。