前面我们介绍了一对随机变量的联合概率分布,也说明了如何从联合分布中恢复出单个随机变量(边缘)的分布。现在我们讨论条件分布,即其他随机变量假设为特定值,求一个随机变量的分布,首先讨论离散情况。
令
X1,X2
表示离散随机变量,联合pmf为
pX1,X2(x1,x2)
,其在支撑集
S
上是正的,其他地方为零。令
pX1(x1),pX2(x2)
分别表示
X1,X2
的边缘概率密度函数,
x1
是
X1
支撑中的点;因此
pX1(x1)>0
,利用条件概率定义,对于
X2
支撑
SX2
中的所有
x2
,我们有
将这个函数定义为
对于任意满足
pX1(x1)>0
的固定
x1
,函数
pX2|X1(x2|x1)
满足离散pmf的条件,因为
pX2|X1(x2|x1)
是非负的且
我们称
pX2|X1(x2|x1)
是给定离散随机变量
X1=x1
的条件下,离散随机变量
X2
的条件pmf。同样的,假设
x2∈SX2
,我们将符号
pX1|X2(x1|x2)
定义为
我们称 pX1|X2(x1|x2) 是给定离散随机变量 X2=x2 的条件下,离散随机变量 X1 的条件pmf。我们常将 pX1|X2(x1|x2) 缩写成 p1|2(x1|x2) , pX2|X1(x2|x1) 缩写成 p2|1(x2|x1) ,同样的 p1(x1),p2(x2) 分别表示边缘pmf。
现在令
X1,X2
表示连续随机变量且联合pdf为
fX1,X2(x1,x2)
,边缘概率密度函数分别为
fX1(x1),fX2(x2)
,我们将使用前面的结论来推出连续随机变量的条件pdf,当
fX1(x1)>0
时,我们将符号
fX2|X1(x2|x1)
定义为
在这个关系中,可将
x1
看成是满足
fX1(x1)>0
的固定值(但是是任意固定的),很明显
fX2|X1(x2|x1)
是非负的且
即
fX2|X1(x2|x1)
满足连续随机变量pdf的性质,我们称它为给定连续随机变量
X1
的值
x1
时,连续随机变量
X2
的条件pdf。当
fX2(x2)>0
,给定连续随机变量
X2
的值
x2
时,连续随机变量
X1
的条件pdf定义为
我们常将这些条件pdf缩写成 f1|2(x1|x2),f2|1(x2|x1) ,同样的 f1(x1),f2(x2) 将分别表示边缘pdf。
因为
f2|1(x2|x1),f1|2(x1|x2)
是随机变量的pdf,每个都满足pdf的性质,所以我们可以计算概率以及数学期望,如果随机变量是连续形的,那么概率
称为给定
X1=x1,a<X2<b
的条件概率,在不引起歧义的情况下,我们可以写成
P(a<X2<b|x1)
。同样的,给定
X2=x2,c<X1<d
的条件概率为
如果
u(X2)
是
x2
的函数,那么给定
X1=x1,u(X2)
的条件期望(如果存在的话)为
特别地,如果他们存在的话,那么
E(X2|x1)
与
E{[X2−E(X2|x1)]2|x1}
分别表示给定
X1=x1
后
X2
条件分布的均值与方差,方差可以简写为
var(X2|x1)
,从之前的结论我们知道
同样的,给定
X2=x2
,
u(X1)
的条件期望(如果存在的话)为
对于离散随机变量,只需要将积分符号变成求和符号即可,如下面例子所示。
例1:
X1,X2
的联合pdf为
那么边缘概率密度函数分别是
和
给定
X2=x2,0<x2<1
,
X1
的条件pdf为
这里给定
X2=x2
,
X1
的条件均值与条件期望分别为
和
最后,我们将计算
的值,我们有
但是
因为 E(X2|X1) 是 x1 的函数,那么 E(X2|X1) 是随机变量,其有自己分布、期望与方差,现在举例说明这种情况。
例2:
令
X1,X2
的联合pdf为
那么
X1
的边缘pdf为
其余地方为零。给定
X1=x1
,
X2
的条件pdf为
其余地方为零,其中
0<x1<1
。给定
X1=x1
,
X2
的条件均值为
现在
E(X2|X1)=2X1/3
是一个随机变量,用
Y
表示,那么
根据
f1(x1)
的pdf我们有
当然,如果
y<0,G(y)=0
,如果
23<y,G(y)=1
,
Y=2X1/3
的pdf、均值与方差为
其余地方为零,
和
因为
X2
的边缘pdf为
其余地方为零,很容易说明
E(X2)=12,var(X2)=120
,即
和
例2是个非常好的例子,因为它让我们回顾了求随机变量函数分布的cdf方法,而且最后两个等式不是偶然的,一般情况下就是为真。
定理1: (X1,X2) 是随机向量,使得 X2 的方差是有限的,那么
- E[E(X2|X1)]=E(X2)
- var[E(X2|X1)]≤var(X2)
证明:
这里证明的是连续情况,对于离散情况只需要将积分符号换成离散符号即可。首先证明
(a)
,注意
接下里证明
(b)
,考虑
μ2=E(X2)
,
我们接下来说明右边的最后一项等于零,
但是
E(X2|x1)
是给定
X1=x1
,
X2
的条件均值,因为大括号中的表达式等于
所以双重积分等于零,故我们有
右边的第一项是非负的,因为它是非负函数即
[X2−E(X2|X1)]2
的期望,因为
E[E(X2|X1)]=μ2
,第二项为
var[E(X2|X1)]
,因此我们有
得证。 ||
直观上这个结论有一个有用的解释,随机变量 X2,E(X2|X1) 均值均为 μ2 ,如果我们不知道 μ2 ,那么我们可以用这两个随机变量的任何一个来猜未知量 μ2 。然而因为 var(X2)≥var[E(X2|X1)] ,故我们更相信 E(X2|X1) 。即,如果我们观测到 (X1,X2) ,我们更愿意用 E(X2|x1) 来猜测未知量 μ2 ,在之后研究估计中的充分统计量时,我们会利用这个结论。