第二章 随机变量与分布函数(4)
1.随机变量独立性
之前将随机变量整合成随机向量是为了研究两个随机变量之间的联系,既然说到联系,就免不了独立性的讨论,这是两个随机变量之间不存在联系的直接指标。事件独立性的概念是,对于两个事件 A , B A,B A,B,有 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),而随机变量每取一个值都可以看做一个事件(落入某个范围也是一个事件)。由随机变量的定义, R \R R上的每个Borel集都是一个事件,因此随机变量独立,实际上对应着事件域的独立。
由于任何随机变量的分布可以用分布函数来刻画,不论离散型还是连续型,因此我们只要讨论特殊的一类Borel集
(
−
∞
,
C
]
(-\infty ,C]
(−∞,C],这里
C
C
C是任一常数,由这种Borel集可以通过可列次并、交、逆得到所有Borel集。这样,令事件
A
A
A为:
X
≤
x
X\le x
X≤x,事件
B
B
B为:
Y
≤
y
Y\le y
Y≤y,这里给定
x
,
y
x,y
x,y的值,则
A
,
B
A,B
A,B独立等价于
P
(
A
B
)
=
P
(
X
≤
x
,
Y
≤
y
)
=
F
(
x
,
y
)
=
F
X
(
x
)
F
Y
(
y
)
=
P
(
X
≤
x
)
P
(
Y
≤
y
)
=
P
(
A
)
P
(
B
)
,
P(AB)=P(X\le x,Y\le y)=F(x,y)=F_X(x)F_Y(y)=P(X\le x)P(Y\le y)=P(A)P(B),
P(AB)=P(X≤x,Y≤y)=F(x,y)=FX(x)FY(y)=P(X≤x)P(Y≤y)=P(A)P(B),
也就是
F
(
x
,
y
)
=
F
X
(
x
)
F
Y
(
y
)
F(x,y)=F_X(x)F_Y(y)
F(x,y)=FX(x)FY(y)。如果对于任意给定的
x
,
y
x,y
x,y这个式子都成立,那么由Borel集的构造,就可以推出两个
σ
\sigma
σ-代数独立,自然也就是随机变量
X
,
Y
X,Y
X,Y独立。
综上所述,对于两个随机变量
X
,
Y
X,Y
X,Y,它们独立等价于
F
X
,
Y
(
x
,
y
)
=
F
X
(
x
)
F
Y
(
y
)
,
∀
x
,
y
∈
R
.
F_{X,Y}(x,y)=F_X(x)F_Y(y),\quad \forall x,y\in \R.
FX,Y(x,y)=FX(x)FY(y),∀x,y∈R.
具体到离散型随机变量,因为离散型随机变量的概率分布用分布列描述,记
P
(
X
=
x
i
)
=
p
X
(
x
i
)
P(X=x_i)=p_X(x_i)
P(X=xi)=pX(xi),其他类似,有
p
X
,
Y
(
x
i
,
y
j
)
=
p
X
(
x
i
)
p
Y
(
y
j
)
,
∀
x
i
,
y
j
.
p_{X,Y}(x_i,y_j)=p_X(x_i)p_Y(y_j),\quad \forall x_i,y_j.
pX,Y(xi,yj)=pX(xi)pY(yj),∀xi,yj.
具体到连续型随机变量,因为连续型随机变量的概率分布用密度函数描述,所以可以推出
F
(
x
,
y
)
=
F
X
(
x
)
F
Y
(
y
)
,
∫
−
∞
x
∫
−
∞
y
p
(
u
,
v
)
d
v
d
u
=
∫
−
∞
x
p
X
(
u
)
d
u
∫
−
∞
y
p
Y
(
v
)
d
v
=
∫
−
∞
x
∫
−
∞
y
p
X
(
u
)
p
Y
(
v
)
d
y
d
u
;
p
(
u
,
v
)
=
p
X
(
u
)
p
Y
(
v
)
,
∀
x
,
y
.
\begin{aligned} F(x,y)=&F_X(x)F_Y(y),\\ \int_{-\infty}^x\int_{-\infty}^y p(u,v)dvdu=&\int_{-\infty}^x p_X(u)du \int_{-\infty} ^y p_Y(v)dv\\ =&\int_{-\infty }^x\int_{-\infty }^y p_X(u)p_Y(v)dydu;\\ p(u,v)=&p_X(u)p_Y(v),\quad \forall x,y. \end{aligned}
F(x,y)=∫−∞x∫−∞yp(u,v)dvdu==p(u,v)=FX(x)FY(y),∫−∞xpX(u)du∫−∞ypY(v)dv∫−∞x∫−∞ypX(u)pY(v)dydu;pX(u)pY(v),∀x,y.
推广到
n
n
n维随机向量,如果
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn相互独立,则有
F
(
x
1
,
x
2
,
⋯
,
x
n
)
=
F
1
(
x
1
)
F
2
(
x
2
)
⋯
F
n
(
x
n
)
.
F(x_1,x_2,\cdots,x_n)=F_1(x_1)F_2(x_2)\cdots F_n(x_n).
F(x1,x2,⋯,xn)=F1(x1)F2(x2)⋯Fn(xn).
2.条件分布
事件有条件概率,随机变量也有条件分布,但由于随机变量存在连续型的,在单点处概率值为0,故对于事件的条件概率定义式不适用了,这时候我们对 X = x X=x X=x作以下改变,改成 lim ϵ → 0 + X ∈ ( x − ϵ , x + ϵ ] \lim\limits_{\epsilon\to 0^+} X\in(x-\epsilon,x+\epsilon] ϵ→0+limX∈(x−ϵ,x+ϵ],这就可以定义条件概率了。
以
F
Y
∣
X
(
y
∣
x
)
=
P
(
Y
≤
y
∣
X
=
x
)
F_{Y|X}(y|x)=P(Y\le y|X=x)
FY∣X(y∣x)=P(Y≤y∣X=x)为例,也就是求
X
=
x
X=x
X=x的条件下,
Y
Y
Y的条件分布函数,即
P
(
Y
≤
y
∣
X
=
x
)
=
lim
ϵ
→
0
+
P
(
Y
≤
y
,
x
−
ϵ
<
X
≤
x
+
ϵ
)
P
(
x
−
ϵ
<
X
≤
x
+
ϵ
)
\begin{aligned} P(Y\le y|X=x)=\lim_{\epsilon\to 0^+}\frac{P(Y\le y, x-\epsilon <X\le x+\epsilon)}{P(x-\epsilon <X\le x+\epsilon)} \end{aligned}
P(Y≤y∣X=x)=ϵ→0+limP(x−ϵ<X≤x+ϵ)P(Y≤y,x−ϵ<X≤x+ϵ)
接下来的处理,对于离散型和连续性有所不同。
离散型较为简单,直接计算条件分布列即可。如果
P
(
X
=
x
)
=
0
P(X=x)=0
P(X=x)=0那条件概率自然是0;否则可以直接利用条件概率公式:
P
(
Y
=
y
∣
X
=
x
)
=
P
(
X
=
x
,
Y
=
y
)
P
(
X
=
x
)
.
P(Y=y|X=x)=\frac{P(X=x,Y=y)}{P(X=x)}.
P(Y=y∣X=x)=P(X=x)P(X=x,Y=y).
条件分布函数可以利用条件概率分布列,以及概率的可列可加性直接求得。由于离散型随机变量的条件分布并不常用,所以不多说。
连续型稍微复杂一点,可以得到
F
Y
∣
X
(
y
∣
x
)
=
P
(
Y
≤
y
∣
X
=
x
)
=
lim
ϵ
→
0
+
[
F
(
x
+
ϵ
,
y
)
−
F
(
x
+
ϵ
,
−
∞
)
]
−
[
F
(
x
−
ϵ
,
y
)
−
F
(
x
−
ϵ
,
−
∞
)
]
F
X
(
x
+
ϵ
)
−
F
X
(
x
−
ϵ
)
=
lim
ϵ
→
0
+
F
(
x
+
ϵ
,
v
)
−
F
(
x
−
ϵ
,
v
)
F
X
(
x
+
ϵ
)
−
F
X
(
x
−
ϵ
)
=
lim
ϵ
→
0
+
F
(
x
+
ϵ
,
v
)
−
F
(
x
−
ϵ
,
v
)
2
ϵ
F
X
(
x
+
ϵ
)
−
F
X
(
x
−
ϵ
)
2
ϵ
=
∫
−
∞
y
p
(
x
,
v
)
d
v
p
X
(
x
)
=
∫
−
∞
y
p
(
x
,
v
)
p
X
(
x
)
d
v
.
\begin{aligned} &F_{Y|X}(y|x)=P(Y\le y|X=x)\\ =&\lim_{\epsilon \to 0^+}\frac{[F(x+\epsilon,y)-F(x+\epsilon ,-\infty )]-[F(x-\epsilon, y)-F(x-\epsilon ,-\infty)]}{F_X(x+\epsilon)-F_X(x-\epsilon)}\\ =&\lim_{\epsilon \to 0^+} \frac{F(x+\epsilon, v)-F(x-\epsilon, v)}{F_X(x+\epsilon)-F_X(x-\epsilon)}\\ =&\lim_{\epsilon\to 0^+}\frac{\frac{F(x+\epsilon,v)-F(x-\epsilon ,v)}{2\epsilon}}{\frac{F_X(x+\epsilon)-F_X(x-\epsilon)}{2\epsilon}}\\ =&\frac{\int_{-\infty}^yp(x,v)dv}{p_X(x)}\\ =&\int_{-\infty}^y \frac{p(x,v)}{p_X(x)}dv. \end{aligned}
=====FY∣X(y∣x)=P(Y≤y∣X=x)ϵ→0+limFX(x+ϵ)−FX(x−ϵ)[F(x+ϵ,y)−F(x+ϵ,−∞)]−[F(x−ϵ,y)−F(x−ϵ,−∞)]ϵ→0+limFX(x+ϵ)−FX(x−ϵ)F(x+ϵ,v)−F(x−ϵ,v)ϵ→0+lim2ϵFX(x+ϵ)−FX(x−ϵ)2ϵF(x+ϵ,v)−F(x−ϵ,v)pX(x)∫−∞yp(x,v)dv∫−∞ypX(x)p(x,v)dv.
所以条件密度就是
p
Y
∣
X
(
y
∣
x
)
=
F
Y
∣
X
′
(
y
∣
x
)
=
p
(
x
,
y
)
p
X
(
x
)
.
p_{Y|X}(y|x)=F'_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)}.
pY∣X(y∣x)=FY∣X′(y∣x)=pX(x)p(x,y).
3.连续形式下的全概率公式与Bayes公式
连续形式下的全概率公式打破了对随机事件组可列性的限制,比如对连续性随机变量 ξ \xi ξ, ξ \xi ξ等于 R \R R上每一个数可以构成一个完备事件组,但由于实数集不可列所以没法写出全概率公式,这时就需要连续型的全概率公式。
由于
ξ
\xi
ξ取每一个值
x
x
x时,事件
A
A
A都对应着一个条件概率
P
(
A
∣
X
=
x
)
P(A|X=x)
P(A∣X=x),因此我们可以考虑用一个函数来表示这个概率,记作
g
(
x
)
=
P
(
A
∣
X
=
x
)
g(x)=P(A|X=x)
g(x)=P(A∣X=x)。如果
X
X
X是离散型的,只能取可列个值以内,那么全概率公式可以直接用离散形式写出;如果
X
X
X是连续型的,则它具有自己的概率密度函数
p
(
x
)
p(x)
p(x),将
X
=
x
X=x
X=x视为
X
∈
[
x
,
x
+
Δ
x
]
,
Δ
x
→
0
X\in [x,x+\Delta x],\Delta x\to 0
X∈[x,x+Δx],Δx→0,则
P
(
A
∣
X
=
x
)
≈
P
(
A
,
X
∈
[
x
,
x
+
Δ
x
]
)
P
(
X
∈
[
x
,
x
+
Δ
x
]
)
,
P
(
A
,
X
∈
[
x
,
x
+
Δ
x
]
)
=
P
(
A
∣
X
=
x
)
p
(
x
)
Δ
x
+
o
(
Δ
x
)
;
P(A|X=x)\approx \frac{P(A,X\in [x,x+\Delta x])}{P(X\in [x, x+\Delta x])},\\ P(A,X\in [x,x+\Delta x])=P(A|X=x)p(x)\Delta x+o(\Delta x);
P(A∣X=x)≈P(X∈[x,x+Δx])P(A,X∈[x,x+Δx]),P(A,X∈[x,x+Δx])=P(A∣X=x)p(x)Δx+o(Δx);
于是,做分割
−
∞
=
x
0
<
x
1
<
⋯
<
x
n
=
∞
-\infty =x_0<x_1<\cdots<x_n=\infty
−∞=x0<x1<⋯<xn=∞,令分割的长度
δ
\delta
δ趋近于0,有
P
(
A
)
=
P
(
A
,
x
∈
R
)
=
lim
δ
→
0
∑
i
=
1
n
P
(
A
,
X
∈
[
x
i
−
1
,
x
i
]
)
=
lim
δ
→
0
∑
i
=
1
n
P
(
A
∣
X
=
x
i
−
1
)
p
(
x
i
−
1
)
(
x
i
−
1
−
x
i
)
=
∫
−
∞
∞
P
(
A
∣
X
=
x
)
p
(
x
)
d
x
=
∫
−
∞
∞
g
(
x
)
p
(
x
)
d
x
.
\begin{aligned} P(A)=&P(A,x\in \R)\\ =&\lim_{\delta \to 0}\sum_{i=1}^n P(A, X\in[x_{i-1},x_i])\\ =&\lim_{\delta \to 0}\sum_{i=1}^n P(A|X=x_{i-1})p(x_{i-1})(x_{i-1}-x_i)\\ =&\int_{-\infty}^\infty P(A|X=x)p(x)dx\\ =&\int_{-\infty}^\infty g(x)p(x)dx. \end{aligned}
P(A)=====P(A,x∈R)δ→0limi=1∑nP(A,X∈[xi−1,xi])δ→0limi=1∑nP(A∣X=xi−1)p(xi−1)(xi−1−xi)∫−∞∞P(A∣X=x)p(x)dx∫−∞∞g(x)p(x)dx.
这就是全概率公式的连续形式。
对于Bayes公式,主要是关联两个条件概率
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)和
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)的,所以不需要依赖于具体事件,只要对于两个连续型随机变量
X
,
Y
X,Y
X,Y即可。因为
p
(
x
,
y
)
=
p
X
(
x
)
p
Y
∣
X
(
y
∣
x
)
=
p
Y
(
y
)
p
X
∣
Y
(
x
∣
y
)
p(x,y)=p_X(x)p_{Y|X}(y|x)=p_Y(y)p_{X|Y}(x|y)
p(x,y)=pX(x)pY∣X(y∣x)=pY(y)pX∣Y(x∣y),所以有
p
X
∣
Y
(
x
∣
y
)
=
p
(
x
,
y
)
p
Y
(
y
)
=
p
Y
∣
X
(
y
∣
x
)
p
X
(
x
)
∫
−
∞
∞
p
Y
∣
X
(
y
∣
v
)
p
X
(
v
)
d
v
.
p_{X|Y}(x|y)=\frac{p(x,y)}{p_Y(y)}=\frac{p_{Y|X}(y|x)p_X(x)}{\int_{-\infty}^\infty p_{Y|X}(y|v)p_X(v)dv}.
pX∣Y(x∣y)=pY(y)p(x,y)=∫−∞∞pY∣X(y∣v)pX(v)dvpY∣X(y∣x)pX(x).
这就是连续形式的Bayes公式。
由以上两个连续形式的公式,可以看出,对两个条件密度的转化,主要连接桥梁在于它们的联合密度函数。