概率论与数理统计笔记(第三章 多维随机变量及其分布)
对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的《概率论与数理统计教程》,其他知识待后续书籍补充。
文章目录
第三章 多维随机变量及其分布
3.1 多维随机向量及其联合分布
3.1.1 多维随机变量
下面我们先给出
n
n
n 维随机变量的定义.
定义 3.1.1
如果
X
1
(
ω
)
,
X
2
(
ω
)
,
⋯
,
X
n
(
ω
)
X_1(\omega), X_2(\omega), \cdots, X_n(\omega)
X1(ω),X2(ω),⋯,Xn(ω) 是定义在同一个样本空间
Ω
=
\Omega=
Ω=
{
ω
}
\{\omega\}
{ω} 上的
n
n
n 个随机变量, 则称
X
(
ω
)
=
(
X
1
(
ω
)
,
X
2
(
ω
)
,
⋯
,
X
n
(
ω
)
)
X(\omega)=\left(X_1(\omega), X_2(\omega), \cdots, X_n(\omega)\right)
X(ω)=(X1(ω),X2(ω),⋯,Xn(ω))
为
n
n
n 维 (或
n
n
n 元) 随机变量或随机向量.
3.1 .2 联合分布函数
定义 3.1.2
对任意的
n
n
n 个实数
x
1
,
x
2
,
⋯
,
x
n
x_1, x_2, \cdots, x_n
x1,x2,⋯,xn, 则
n
n
n 个事件
{
X
1
⩽
x
1
}
,
{
X
2
⩽
\left\{X_1 \leqslant x_1\right\}, \{X_2 \leqslant
{X1⩽x1},{X2⩽
x
2
}
,
⋯
,
{
X
n
⩽
x
n
}
x_2\}, \cdots,\{X_n \leqslant x_n \}
x2},⋯,{Xn⩽xn} 同时发生的概率
F
(
x
1
,
x
2
,
⋯
,
x
n
)
=
P
(
X
1
⩽
x
1
,
X
2
⩽
x
2
,
⋯
,
X
n
⩽
x
n
)
F\left(x_1, x_2, \cdots, x_n\right)=P\left(X_1 \leqslant x_1, X_2 \leqslant x_2, \cdots, X_n \leqslant x_n\right)
F(x1,x2,⋯,xn)=P(X1⩽x1,X2⩽x2,⋯,Xn⩽xn)
称为
n
n
n 维随机变量
(
X
1
,
X
2
,
⋯
,
X
n
)
\left(X_1, X_2, \cdots, X_n\right)
(X1,X2,⋯,Xn) 的联合分布函数.
定理 3.1.1 任一二维联合分存函数 F ( x , y ) F(x, y) F(x,y) 必具有如下四条基本性质:
(1) 单调性
F ( x , y ) F(x, y) F(x,y) 分别对 x x x 或 y y y 是 单调非减的, 即
当 x 1 < x 2 x_1<x_2 x1<x2 时, 有 F ( x 1 , y ) ⩽ F ( x 2 , y ) F\left(x_1, y\right) \leqslant F\left(x_2, y\right) F(x1,y)⩽F(x2,y),
当 y 1 < y 2 y_1<y_2 y1<y2 时, 有 F ( x , y 1 ) ⩽ F ( x , y 2 ) F\left(x, y_1\right) \leqslant F\left(x, y_2\right) F(x,y1)⩽F(x,y2).
(2) 有界性
对任意的 x x x 和 y y y, 有 0 ⩽ 0 \leqslant 0⩽ F ( x , y ) ⩽ 1 F(x, y) \leqslant 1 F(x,y)⩽1, 且
F ( − ∞ , y ) = lim x → − ∞ F ( x , y ) = 0 , F ( x , − ∞ ) = lim → − ∞ F ( x , y ) = 0 , F ( ∞ , ∞ ) = lim x , y → ∞ F ( x , y ) = 1. \begin{aligned} &F(-\infty, y)=\lim _{x \rightarrow-\infty} F(x, y)=0, \\ &F(x,-\infty)=\lim _{\rightarrow-\infty} F(x, y)=0, \\ &F(\infty, \infty)=\lim _{x, y \rightarrow \infty} F(x, y)=1 . \end{aligned} F(−∞,y)=x→−∞limF(x,y)=0,F(x,−∞)=→−∞limF(x,y)=0,F(∞,∞)=x,y→∞limF(x,y)=1.
(3) 右连续性
对每个变量都是右连续的, 即
F ( x + 0 , y ) = F ( x , y ) , F ( x , y + 0 ) = F ( x , y ) . \begin{aligned} &F(x+0, y)=F(x, y), \\ &F(x, y+0)=F(x, y) . \end{aligned} F(x+0,y)=F(x,y),F(x,y+0)=F(x,y).
(4) 非负性
对任意的 a < b , c < d a<b, c<d a<b,c<d 有
P ( a < X ⩽ b , c < Y ⩽ d ) = F ( b , d ) − F ( a , d ) − F ( b , c ) + F ( a , c ) ⩾ 0. \begin{aligned} & P(a<X \leqslant b, c<Y \leqslant d) \\ =& F(b, d)-F(a, d)-F(b, c)+F(a, c) \geqslant 0 . \end{aligned} =P(a<X⩽b,c<Y⩽d)F(b,d)−F(a,d)−F(b,c)+F(a,c)⩾0.
3.1.3 联合分布列
定义 3.1.3
如果二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 只取有限个或可列个数对
(
x
i
,
y
j
)
\left(x_i, y_j\right)
(xi,yj), 则称
(
X
,
Y
)
(X, Y)
(X,Y) 为二维离散随机变量, 称
p
i
j
=
P
(
X
=
x
i
,
Y
=
y
j
)
,
i
,
j
=
1
,
2
,
⋯
p_{i j}=P\left(X=x_i, Y=y_j\right) , \quad i, j=1,2, \cdots
pij=P(X=xi,Y=yj),i,j=1,2,⋯
为
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布列.
联合分布列的基本性质:
(1) 非负性 p i j ⩾ 0 p_{i j} \geqslant 0 pij⩾0.
(2) 正则性 ∑ i = 1 ∞ ∑ j = 1 ∞ p i j = 1 \sum_{i=1}^{\infty} \sum_{j=1}^{\infty} p_{i j}=1 ∑i=1∞∑j=1∞pij=1.
3.1.4 联合密度函数
定义 3.1.4 如果存在二元非负函数
p
(
x
,
y
)
p(x, y)
p(x,y), 使得二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的 分布函数
F
(
x
,
y
)
F(x, y)
F(x,y) 可表示为
F
(
x
,
y
)
=
∫
−
∞
x
∫
−
∞
y
p
(
u
,
v
)
d
v
d
u
,
F(x, y)=\int_{-\infty}^{x} \int_{-\infty}^y p(u, v) \mathrm{d} v \mathrm{~d} u,
F(x,y)=∫−∞x∫−∞yp(u,v)dv du,
则称
(
X
,
Y
)
(X, Y)
(X,Y) 为二维连续随机变量, 称
p
(
u
,
v
)
p(u, v)
p(u,v) 为
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数.
联合密度函数的基本性质:
(1)非负性
p
(
x
,
y
)
⩾
0
p(x, y) \geqslant 0
p(x,y)⩾0.
(2)正则性
∫
−
∞
∞
∫
−
∞
∞
p
(
x
,
y
)
d
y
d
x
=
1
\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x, y) \mathrm{d} y \mathrm{~d} x=1
∫−∞∞∫−∞∞p(x,y)dy dx=1.
给出联合密度函数
p
(
x
,
y
)
p(x, y)
p(x,y), 就可以求有关事件的概率了. 若
G
G
G 为平面上的一个区域, 则事件
{
(
X
,
Y
)
∈
G
}
\{(X, Y) \in G\}
{(X,Y)∈G} 的概率可表示为在
G
G
G 上对
p
(
x
,
y
)
p(x, y)
p(x,y) 的二重积分
P
(
(
X
,
Y
)
∈
G
)
=
∬
G
p
(
x
,
y
)
d
x
d
y
.
P((X, Y) \in G)=\iint_G p(x, y) \mathrm{d} x \mathrm{~d} y .
P((X,Y)∈G)=∬Gp(x,y)dx dy.
3.1.5 常用多维分布
下面介绍一些多维随机变量的常用分布.
一、多项分布
多项分布是重要的多维离散分布,它是二项分布的推广.
进行
n
n
n 次独立重复试验, 如果每次试验有
r
r
r 个互不相容结果:
A
1
,
A
2
,
⋯
,
A
r
A_1, A_2, \cdots, A_r
A1,A2,⋯,Ar 之一发生, 且每次试验中
A
i
A_i
Ai 发生的概率为
p
i
=
P
(
A
i
)
,
i
=
1
,
2
,
⋯
,
r
p_i=P\left(A_i\right), i=1,2, \cdots, r
pi=P(Ai),i=1,2,⋯,r, 且
p
1
+
p
2
+
⋯
+
p_1+p_2+\cdots+
p1+p2+⋯+
p
s
=
1
p_s=1
ps=1. 记
X
i
X_i
Xi 为
n
n
n 次独立重复试验中
A
i
A_i
Ai 出现的次数,
i
=
1
,
2
,
⋯
,
r
i=1,2, \cdots, r
i=1,2,⋯,r. 则
(
X
1
,
X
2
,
⋯
\left(X_1, X_2, \cdots\right.
(X1,X2,⋯,
X
r
)
\left.X_r\right)
Xr) 取值
(
n
1
,
n
2
,
⋯
,
n
r
)
\left(n_1, n_2, \cdots, n_r\right)
(n1,n2,⋯,nr) 的概率, 即
A
1
A_1
A1 出现
n
1
n_1
n1 次,
A
2
A_2
A2 出现
n
2
n_2
n2 次,
⋯
⋯
,
A
r
\cdots \cdots, A_{r}
⋯⋯,Ar出现
n
r
n_r
nr 次的概率为
P
(
X
1
=
n
1
,
X
2
=
n
2
,
⋯
,
X
r
=
n
r
)
=
n
!
n
1
!
n
2
!
⋯
n
r
!
p
1
n
1
p
2
n
2
…
p
r
n
r
,
P\left(X_1=n_1, X_2=n_2, \cdots, X_r=n_r\right)=\frac{n !}{n_{1} ! n_{2} ! \cdots n_{r} !} p_1^{n_1} p_2^{n_2} \ldots p_r^{n_r},
P(X1=n1,X2=n2,⋯,Xr=nr)=n1!n2!⋯nr!n!p1n1p2n2…prnr,
其中
n
=
n
1
+
n
2
+
⋯
+
n
r
n=n_1+n_2+\cdots+n_r
n=n1+n2+⋯+nr.
二、多维超几何分布
袋中有
N
N
N 个球, 其中有
N
i
N_i
Ni 个
i
i
i 号球,
i
=
1
i=1
i=1,
2
,
⋯
,
r
2, \cdots, r
2,⋯,r, 且
N
=
N
1
+
N
2
+
⋯
+
N
r
N=N_1+N_2+\cdots+N_r
N=N1+N2+⋯+Nr. 从中任意取出
n
n
n 个. 若记
X
i
X_i
Xi 为取出的
n
n
n 个球中
i
i
i 号 球的个数,
i
=
1
,
2
,
⋯
,
r
i=1,2, \cdots, r
i=1,2,⋯,r, 则
P
(
X
1
=
n
1
,
X
2
=
n
2
,
⋯
,
X
r
=
n
r
)
=
(
N
1
n
1
)
(
N
2
n
2
)
⋯
(
N
r
n
r
)
(
N
n
)
,
P\left(X_1=n_1, X_2=n_2, \cdots, X_r=n_r\right)=\frac{\left(\begin{array}{l} N_1 \\ n_1 \end{array}\right)\left(\begin{array}{l} N_2 \\ n_2 \end{array}\right) \cdots\left(\begin{array}{l} N_r \\ n_r \end{array}\right)}{\left(\begin{array}{l} N \\ n \end{array}\right)},
P(X1=n1,X2=n2,⋯,Xr=nr)=(Nn)(N1n1)(N2n2)⋯(Nrnr),
其中
n
1
+
n
2
+
⋯
+
n
c
=
n
n_1+n_2+\cdots+n_c=n
n1+n2+⋯+nc=n.
三、多维均匀分布
设
D
D
D 为
R
n
\mathbf{R}^n
Rn 中的一个有界区域,其度量(平面的为面积,空间的为体积等)为
S
D
S_D
SD, 如果多维随机变量
(
X
1
,
X
2
,
⋯
,
X
n
)
\left(X_1, X_2, \cdots, X_n\right)
(X1,X2,⋯,Xn) 的联合密度函数为
p
(
x
1
,
x
2
,
⋯
,
x
n
)
=
{
1
S
D
,
(
x
1
,
x
2
,
⋯
,
x
n
)
∈
D
,
0
,
其他.
p\left(x_1, x_2, \cdots, x_n\right)= \begin{cases}\frac{1}{S_D}, & \left(x_1, x_2, \cdots, x_n\right) \in D , \\ 0, & \text { 其他. }\end{cases}
p(x1,x2,⋯,xn)={SD1,0,(x1,x2,⋯,xn)∈D, 其他.
则称
(
X
1
,
X
2
,
⋯
,
X
n
)
\left(X_1, X_2, \cdots, X_n\right)
(X1,X2,⋯,Xn) 服从
D
D
D 上的多维均匀分布, 记为
(
X
1
,
X
2
,
⋯
,
X
n
)
∼
U
(
D
)
\left(X_1, X_2, \cdots, X_n\right) \sim U(D)
(X1,X2,⋯,Xn)∼U(D).
四、二元正态分布
如果二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
=
1
2
π
σ
1
σ
2
1
−
ρ
2
exp
{
−
1
2
(
1
−
ρ
2
)
[
(
x
−
μ
1
)
2
σ
1
2
−
2
ρ
(
x
−
μ
1
)
(
y
−
μ
2
)
σ
1
σ
2
+
(
y
−
μ
2
)
2
σ
2
2
]
}
,
−
∞
<
x
,
y
<
∞
,
\begin{aligned} p(x, y)=& \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \exp \left\{-\frac{1}{2\left(1-\rho^2\right)}\left[\frac{\left(x-\mu_1\right)^2}{\sigma_1^2}\right.\right.\\ &\left.\left.-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right]\right\},-\infty<x, y<\infty, \end{aligned}
p(x,y)=2πσ1σ21−ρ21exp{−2(1−ρ2)1[σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2]},−∞<x,y<∞,
则称
(
X
,
Y
)
(X, Y)
(X,Y) 服从二元正态分布, 记为
(
X
,
Y
)
∼
N
(
μ
1
,
μ
2
,
σ
1
2
,
σ
2
2
,
ρ
)
(X, Y) \sim N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)
(X,Y)∼N(μ1,μ2,σ12,σ22,ρ). 其中五个参数的取值范围分别是
−
∞
<
μ
1
,
μ
2
<
∞
,
σ
1
,
σ
2
>
0
,
−
1
⩽
ρ
⩽
1
.
-\infty<\mu_1, \mu_2<\infty, \quad \sigma_1, \sigma_2>0, \quad-1 \leqslant \rho \leqslant 1 \text {. }
−∞<μ1,μ2<∞,σ1,σ2>0,−1⩽ρ⩽1.
以后将指出:
μ
1
,
μ
2
\mu_1, \mu_2
μ1,μ2 分别是
X
X
X 与
Y
Y
Y 的均值,
σ
1
2
,
σ
2
2
\sigma_1^2, \sigma_2^2
σ12,σ22 分别是
X
X
X 与
Y
Y
Y 的方差,
ρ
\rho
ρ 是
X
X
X 与
Y
Y
Y 的相关系数.
3.2 边际分布与随机变量的独立性
3.2.1 边际分布函数
如果在二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布函数
F
(
x
,
y
)
F(x, y)
F(x,y) 中令
y
→
∞
y \rightarrow \infty
y→∞, 由于
{
Y
<
∞
}
\{Y<\infty\}
{Y<∞} 为必然事件, 故可得
lim
y
→
∞
F
(
x
,
y
)
=
P
(
X
⩽
x
,
Y
<
∞
)
=
P
(
X
⩽
x
)
,
\lim _{y\rightarrow \infty} F(x, y)=P(X \leqslant x, Y<\infty)=P(X \leqslant x),
y→∞limF(x,y)=P(X⩽x,Y<∞)=P(X⩽x),
这是由
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布函数
F
(
x
,
y
)
F(x, y)
F(x,y) 求得的
X
X
X 的分布函数, 被称为
X
X
X 的边际分布, 记为
F
X
(
x
)
=
F
(
x
,
∞
)
.
F_X(x)=F(x, \infty) .
FX(x)=F(x,∞).
类似地, 在
F
(
x
,
y
)
F(x, y)
F(x,y) 中令
x
→
∞
x \rightarrow \infty
x→∞, 可得
Y
Y
Y 的边际分布
F
Y
(
y
)
=
F
(
∞
,
y
)
.
F_Y(y)=F(\infty, y) .
FY(y)=F(∞,y).
在三维随机变量
(
X
,
Y
,
Z
)
(X, Y, Z)
(X,Y,Z) 的联合分布函数
F
(
x
,
y
,
z
)
F(x, y, z)
F(x,y,z) 中, 用类似的方法可得到更多的边际分布函数:
F
x
(
x
)
=
F
(
x
,
∞
,
∞
)
,
F
y
(
y
)
=
F
(
∞
,
y
,
∞
)
,
F
z
(
z
)
=
F
(
∞
,
∞
,
z
)
,
F
x
,
y
(
x
,
y
)
=
F
(
x
,
y
,
∞
)
,
F
x
,
z
(
x
,
z
)
=
F
(
x
,
∞
,
z
)
,
F
y
,
z
(
y
,
z
)
=
F
(
∞
,
y
,
z
)
.
\begin{aligned} &F_x(x)=F(x, \infty, \infty), \\ &F_y(y)=F(\infty, y, \infty), \\ &F_z(z)=F(\infty, \infty, z), \\ &F_{x, y}(x, y)=F(x, y, \infty), \\ &F_{x, z}(x, z)=F(x, \infty, z), \\ &F_{y, z}(y, z)=F(\infty, y, z) . \end{aligned}
Fx(x)=F(x,∞,∞),Fy(y)=F(∞,y,∞),Fz(z)=F(∞,∞,z),Fx,y(x,y)=F(x,y,∞),Fx,z(x,z)=F(x,∞,z),Fy,z(y,z)=F(∞,y,z).
在更高维的场合, 也可类似地从联合分布函数获得其低维的边际分布函数.
3.2.2 边际分布列
在二维离散随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布列
{
P
(
X
=
x
i
,
Y
=
y
j
)
}
\left\{ P\left(X=x_i, Y=y_j\right)\right\}
{P(X=xi,Y=yj)} 中, 对
j
j
j 求和所得的分布列
∑
j
=
1
∞
P
(
X
=
x
i
,
Y
=
y
j
)
=
P
(
X
=
x
i
)
,
i
=
1
,
2
,
⋯
\sum_{j=1}^{\infty} P\left(X=x_i, Y=y_j\right)=P\left(X=x_i\right) , i=1,2, \cdots
j=1∑∞P(X=xi,Y=yj)=P(X=xi),i=1,2,⋯
被称为
X
X
X 的边际分布列. 类似地, 对
i
i
i 求和所得的分布列
∑
i
=
1
∞
P
(
X
=
x
i
,
Y
=
y
j
)
=
P
(
Y
=
y
j
)
,
j
=
1
,
2
,
⋯
\sum_{i=1}^{\infty} P\left(X=x_i, Y=y_j\right)=P\left(Y=y_j\right), j=1,2, \cdots
i=1∑∞P(X=xi,Y=yj)=P(Y=yj),j=1,2,⋯
被称为
Y
Y
Y 的边际分布列.
3.2.3 边际密度函数
如果二维连续随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
p(x, y)
p(x,y), 因为
F
X
(
x
)
=
F
(
x
,
∞
)
=
∫
−
∞
x
(
∫
−
∞
∞
p
(
u
,
v
)
d
v
)
d
u
=
∫
−
∞
x
p
X
(
u
)
d
u
,
F
Y
(
y
)
=
F
(
∞
,
y
)
=
∫
−
∞
y
(
∫
−
∞
∞
p
(
u
,
v
)
d
u
)
d
v
=
∫
−
∞
y
p
Y
(
v
)
d
v
,
\begin{aligned} &F_X(x)=F(x, \infty)=\int_{-\infty}^x\left(\int_{-\infty}^{\infty} p(u, v) \mathrm{d} v\right) \mathrm{d} u=\int_{-\infty}^x p_X(u) \mathrm{d} u, \\ &F_Y(y)=F(\infty, y)=\int_{-\infty}^{y}\left(\int_{-\infty}^{\infty} p(u, v) \mathrm{d} u\right) \mathrm{d} v=\int_{-\infty}^y p_Y(v) \mathrm{d} v, \end{aligned}
FX(x)=F(x,∞)=∫−∞x(∫−∞∞p(u,v)dv)du=∫−∞xpX(u)du,FY(y)=F(∞,y)=∫−∞y(∫−∞∞p(u,v)du)dv=∫−∞ypY(v)dv,
其中
p
X
(
x
)
p_X(x)
pX(x) 和
p
Y
(
y
)
p_Y(y)
pY(y) 分别为
p
x
(
x
)
=
∫
−
∞
∞
p
(
x
,
y
)
d
y
,
p
y
(
y
)
=
∫
−
∞
∞
p
(
x
,
y
)
d
x
.
\begin{aligned} &p_x(x)=\int_{-\infty}^{\infty} p(x, y) \mathrm{d} y, \\ &p_y(y)=\int_{-\infty}^{\infty} p(x, y) \mathrm{d} x . \end{aligned}
px(x)=∫−∞∞p(x,y)dy,py(y)=∫−∞∞p(x,y)dx.
3.2.4 随机变量间的独立性
定义 3.2.1
设
n
n
n 维随机变量
(
X
1
,
X
2
,
⋯
,
X
n
)
\left(X_1, X_2, \cdots, X_n\right)
(X1,X2,⋯,Xn) 的联合分布函数为
F
(
x
1
,
x
2
F\left(x_1, x_2\right.
F(x1,x2,
⋯
,
x
n
)
,
F
i
(
x
i
)
\left.\cdots, x_n\right), F_i\left(x_i\right)
⋯,xn),Fi(xi) 为
X
i
X_i
Xi 的边际分布函数. 如果对任意
n
n
n 个实数
x
1
,
x
2
,
⋯
,
x
n
x_1, x_2, \cdots, x_n
x1,x2,⋯,xn, 有
F
(
x
1
,
x
2
,
⋯
,
x
n
)
=
∏
i
=
1
n
F
i
(
x
i
)
,
F\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n F_i\left(x_i\right),
F(x1,x2,⋯,xn)=i=1∏nFi(xi),
则称
X
1
,
X
2
,
⋯
,
X
n
X_1, X_2, \cdots, X_n
X1,X2,⋯,Xn 相互独立.
在离散随机变量场合, 如果对其任意
n
n
n 个取值
x
1
,
x
2
,
⋯
,
x
n
x_1, x_2, \cdots, x_n
x1,x2,⋯,xn, 有
P
(
X
1
=
x
1
,
X
2
=
x
2
,
⋯
,
X
n
=
x
n
)
=
∏
i
=
1
n
P
(
X
i
=
x
i
)
,
P\left(X_1=x_1, X_2=x_2, \cdots, X_n=x_n\right)=\prod_{i=1}^n P\left(X_i=x_i\right),
P(X1=x1,X2=x2,⋯,Xn=xn)=i=1∏nP(Xi=xi),
则称
X
1
,
X
2
,
⋯
,
X
n
X_1, X_2, \cdots, X_n
X1,X2,⋯,Xn 相互独立.
在连续随机变量场合, 如果对任意
n
n
n 个实数
x
1
,
x
2
,
⋯
,
x
n
x_1, x_2, \cdots, x_n
x1,x2,⋯,xn, 有
p
(
x
1
,
x
2
,
⋯
,
x
n
)
=
∏
i
=
1
n
p
i
(
x
i
)
,
p\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n p_i\left(x_i\right),
p(x1,x2,⋯,xn)=i=1∏npi(xi),
则称
X
1
,
X
2
,
⋯
,
X
n
X_1, X_2, \cdots, X_n
X1,X2,⋯,Xn 相互独立.
3.3 多维随机变量函数的分布
3.3.1 多维离散随机变量函数的分布
设 ( X 1 , X 2 , ⋯ , X n ) \left(X_1, X_2, \cdots, X_n\right) (X1,X2,⋯,Xn) 为 n n n 维离散随机变量, 则某一函数 Y = g ( X 1 , X 2 , ⋯ , X n ) Y=g\left(X_1, X_2, \cdots, X_n\right) Y=g(X1,X2,⋯,Xn) 是 一维离散随机变量. 当 ( X 1 , X 2 , ⋯ , X n ) \left(X_1, X_2, \cdots, X_n\right) (X1,X2,⋯,Xn) 所有可能取值较少时, 可将 Y Y Y 的取值一一 列出, 然后再合并整理就可得出结果.
3.3.2 最大值与最小值的分布
下面将以例子形式来讨论寻求最大值与最小值的概率分布的方法.
-
例 3.3.4 (最大值分布)
设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X1,X2,⋯,Xn 是相互独立的 n n n 个随机变量, 若 Y = max { X 1 , X 2 , ⋯ , X n } Y=\max \left\{X_1, X_2, \cdots, X_n\right\} Y=max{X1,X2,⋯,Xn}. 试在以下情况下求 Y Y Y 的分布:
(1) X i ∼ F i ( x ) , i = 1 , 2 , ⋯ , n X_i \sim F_i(x), i=1,2, \cdots, n Xi∼Fi(x),i=1,2,⋯,n;
(2) 诸 X i X_i Xi 同分布, 即 X i ∼ F ( x ) , i = 1 , 2 , ⋯ , n X_i \sim F(x), i=1,2, \cdots, n Xi∼F(x),i=1,2,⋯,n;
(3) 诸 X i X_i Xi 为连续随机变量, 且诸 X i X_i Xi 同分布, 即 X i X_i Xi 的密度函数均为 p ( x ) , i = p(x), i= p(x),i= 1 , 2 , ⋯ , n 1,2, \cdots, n 1,2,⋯,n;
(4) X i ∼ Exp ( λ ) , i = 1 , 2 , ⋯ , n X_i \sim \operatorname{Exp}(\lambda), i=1,2, \cdots, n Xi∼Exp(λ),i=1,2,⋯,n.
解 (1) Y = max { X 1 , X 2 , ⋯ , X n } Y=\max \left\{X_1, X_2, \cdots, X_n\right\} Y=max{X1,X2,⋯,Xn} 的分布函数为
F Y ( y ) = P ( max { X 1 , X 2 , ⋯ , X n } ⩽ y ) = P ( X 1 ⩽ y , X 2 ⩽ y , ⋯ , X n ⩽ y ) = P ( X 1 ⩽ y ) P ( X 2 ⩽ y ) ⋯ P ( X n ⩽ y ) = ∏ i = 1 n F i ( y ) . \begin{aligned} F_Y(y) &=P\left(\max \left\{X_1, X_2, \cdots, X_n\right\} \leqslant y\right)=P\left(X_1 \leqslant y, X_2 \leqslant y, \cdots, X_n \leqslant y\right) \\ &=P\left(X_1 \leqslant y\right) P\left(X_2 \leqslant y\right) \cdots P\left(X_n \leqslant y\right)=\prod_{i=1}^n F_i(y) . \end{aligned} FY(y)=P(max{X1,X2,⋯,Xn}⩽y)=P(X1⩽y,X2⩽y,⋯,Xn⩽y)=P(X1⩽y)P(X2⩽y)⋯P(Xn⩽y)=i=1∏nFi(y).
(2) 将 X i X_i Xi 的共同分布函数 F ( x ) F(x) F(x) 代人上式得
F Y ( y ) = [ F ( y ) ] n . F_Y(y)=[F(y)]^n. FY(y)=[F(y)]n.
(3) Y Y Y 的分布函数仍为上式, 密度函数可对上式关于 y y y 求导得
p Y ( y ) = F Y ′ ( y ) = n [ F ( y ) ] n − 1 p ( y ) . p_Y(y)=F_Y^{\prime}(y)=n[F(y)]^{n-1} p(y) . pY(y)=FY′(y)=n[F(y)]n−1p(y).
(4) 将 Exp ( λ ) \operatorname{Exp}(\lambda) Exp(λ) 的分布函数和密度函数代入得:
F Y ( y ) = { 0 , y < 0 , ( 1 − e − λ y ) n , y ⩾ 0. p Y ( y ) = { 0 , y < 0 , n ( 1 − e − λ y ) n − 1 λ e − λ y , y ⩾ 0. \begin{aligned} &F_Y(y)= \begin{cases}0, & y<0, \\ \left(1-\mathrm{e}^{-\lambda y}\right)^n, & y \geqslant 0 .\end{cases} \\ &p_Y(y)= \begin{cases}0, & y<0, \\ n\left(1-\mathrm{e}^{-\lambda y}\right)^{n-1} \lambda \mathrm{e}^{-\lambda y}, & y \geqslant 0 .\end{cases} \end{aligned} FY(y)={0,(1−e−λy)n,y<0,y⩾0.pY(y)={0,n(1−e−λy)n−1λe−λy,y<0,y⩾0. -
例 3.3.5 (最小值分布)
设 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X1,X2,⋯,Xn 是相互独立的 n n n 个随机变量,若 Y = min { X 1 , X 2 , ⋯ , X n } Y=\min \left\{X_1, X_2, \cdots, X_n\right\} Y=min{X1,X2,⋯,Xn}. 试在以下情况下求 Y Y Y 的分布 :
(1) X i ∼ F i ( x ) , i = 1 , 2 , ⋯ , n X_i \sim F_i(x), i=1,2, \cdots, n Xi∼Fi(x),i=1,2,⋯,n;
(2) 诸 X i X_i Xi 同分布, 即 X i ∼ F ( x ) , i = 1 , 2 , ⋯ , n X_i \sim F(x), i=1,2, \cdots, n Xi∼F(x),i=1,2,⋯,n;
(3) 诸 X i X_i Xi 为连续随机变量, 且诸 X i X_i Xi 同分布, 即 X i X_i Xi 的密度函数为 p ( x ) , i = 1 p(x), i=1 p(x),i=1, 2 , ⋯ , n 2, \cdots, n 2,⋯,n;
(4) X i ∼ Exp ( λ ) , i = 1 , 2 , ⋯ , n X_i \sim \operatorname{Exp}(\lambda), i=1,2, \cdots, n Xi∼Exp(λ),i=1,2,⋯,n.
解 (1) Y = m i n { X 1 , X 2 , ⋯ , X n } Y=min\{X_1, X_2, \cdots, X_n\} Y=min{X1,X2,⋯,Xn} 的分布函数为
F Y ( y ) = P ( min { X 1 , X 2 , ⋯ , X n } ⩽ y ) = 1 − P ( min { X 1 , X 2 , ⋯ , X n } > y ) = 1 − P ( X 1 > y , X 2 > y , ⋯ , X n > y ) = 1 − P ( X 1 > y ) P ( X 2 > y ) ⋯ P ( X n > y ) = 1 − ∏ i = 1 n [ 1 − F i ( y ) ] . \begin{aligned} F_Y(y) &=P\left(\min \left\{X_1, X_2, \cdots, X_n\right\} \leqslant y\right) \\ &=1-P\left(\min \left\{X_1, X_2, \cdots, X_n\right\}>y\right) \\ &=1-P\left(X_1>y, X_2>y, \cdots, X_n>y\right) \\ &=1-P\left(X_1>y\right) P\left(X_2>y\right) \cdots P\left(X_n>y\right) \\ &=1-\prod_{i=1}^n\left[1-F_i(y)\right] . \end{aligned} FY(y)=P(min{X1,X2,⋯,Xn}⩽y)=1−P(min{X1,X2,⋯,Xn}>y)=1−P(X1>y,X2>y,⋯,Xn>y)=1−P(X1>y)P(X2>y)⋯P(Xn>y)=1−i=1∏n[1−Fi(y)].
(2) 将 X i X_i Xi 的共同分布函数 F ( x ) F(x) F(x) 代人上式得
F Y ( y ) = 1 − [ 1 − F ( y ) ] n . \left.F_Y(y)=1 - [1-F(y)\right]^n . FY(y)=1−[1−F(y)]n.
(3) Y Y Y 的分布函数仍为上式, 密度函数可对上式关于 y y y 求导得
p Y ( y ) = F Y ′ ( y ) = n [ 1 − F ( y ) ] n − 1 p ( y ) . p_Y(y)=F_Y^{\prime}(y)=n[1-F(y)]^{n-1} p(y) . pY(y)=FY′(y)=n[1−F(y)]n−1p(y).
(4) 将 Exp ( λ ) \operatorname{Exp}(\lambda) Exp(λ) 的分布函数和密度函数代入得
F Y ( y ) = { 0 , y < 0 , 1 − e − n λ y , y ⩾ 0. p Y ( y ) = { 0 , y < 0 , n λ e − n λ y , y ⩾ 0. \begin{gathered} F_Y(y)= \begin{cases}0, & y<0, \\ 1-\mathrm{e}^{-n\lambda y}, & y \geqslant 0 .\end{cases} \\ p_Y(y)= \begin{cases}0, & y<0, \\ n \lambda \mathrm{e}^{-n \lambda y}, & y \geqslant 0 .\end{cases} \end{gathered} FY(y)={0,1−e−nλy,y<0,y⩾0.pY(y)={0,nλe−nλy,y<0,y⩾0.
3.3.3 连续场合的卷积公式
定理 3.3.1 设 X X X 与 Y Y Y 是两个相互独立的连续随机变量, 其密度函数分别 为 p X ( x ) p_X(x) pX(x) 和 p Y ( y ) p_Y(y) pY(y), 则其和 Z = X + Y Z=X+Y Z=X+Y 的密度函数为
p Z ( z ) = ∫ − ∞ ∞ p X ( z − y ) p Y ( y ) d y = ∫ − ∞ ∞ p X ( x ) p Y ( z − x ) d x . p_Z(z)=\int_{-\infty}^{\infty} p_X(z-y) p_Y(y) \mathrm{d} y=\int_{-\infty}^{\infty}p_X(x) p_Y(z-x) \mathrm{d} x . pZ(z)=∫−∞∞pX(z−y)pY(y)dy=∫−∞∞pX(x)pY(z−x)dx.
3.3.4 变量变换法
一、变量变换法
设二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合密度函数为
p
(
x
,
y
)
p(x, y)
p(x,y), 如果函数
{
u
=
g
1
(
x
,
y
)
,
v
=
g
2
(
x
,
y
)
\left\{\begin{array}{l} u=g_1(x, y), \\ v=g_2(x, y) \end{array}\right.
{u=g1(x,y),v=g2(x,y)
有连续偏导数, 且存在唯一的反函数
{
x
=
x
(
u
,
v
)
,
y
=
y
(
u
,
v
)
,
\left\{\begin{array}{l} x=x(u, v), \\ y=y(u, v), \end{array}\right.
{x=x(u,v),y=y(u,v),
其变换的雅可比行列式
J
=
∂
(
x
,
y
)
∂
(
u
,
v
)
=
∣
∂
x
∂
u
∂
y
∂
u
∂
x
∂
v
∂
y
∂
v
∣
=
(
∂
(
u
,
v
)
∂
(
x
,
y
)
)
−
1
=
(
∣
∂
u
∂
x
∂
u
∂
y
∂
v
∂
x
∂
v
∂
y
∣
)
−
1
≠
0.
J=\frac{\partial(x, y)}{\partial(u, v)}=\left|\begin{array}{ll} \frac{\partial x}{\partial u} & \frac{\partial y}{\partial u} \\ \frac{\partial x}{\partial v} & \frac{\partial y}{\partial v} \end{array}\right|=\left(\frac{\partial(u, v)}{\partial(x, y)}\right)^{-1}=(| \begin{array}{ll} \frac{\partial u}{\partial x} & \frac{\partial u}{\partial y} \\ \frac{\partial v}{\partial x} & \frac{\partial v}{\partial y} \end{array}|)^{-1} \neq 0 .
J=∂(u,v)∂(x,y)=∣∣∣∣∂u∂x∂v∂x∂u∂y∂v∂y∣∣∣∣=(∂(x,y)∂(u,v))−1=(∣∂x∂u∂x∂v∂y∂u∂y∂v∣)−1=0.
若
{
U
=
g
1
(
X
,
Y
)
,
V
=
g
2
(
X
,
Y
)
,
\left\{\begin{array}{l} U=g_1(X, Y), \\ V=g_2(X, Y), \end{array}\right.
{U=g1(X,Y),V=g2(X,Y),
则
(
U
,
V
)
(U, V)
(U,V) 的联合密度函数为
p
(
u
,
v
)
=
p
(
x
(
u
,
v
)
,
y
(
u
,
v
)
)
∣
J
∣
.
p(u, v)=p(x(u, v), y(u, v))|J| .
p(u,v)=p(x(u,v),y(u,v))∣J∣.
二、增补变量法
增补变量法实质上是变换法的一种应用: 为了求出二维连续随机变量
(
X
(X
(X,
Y
)
Y)
Y) 的函数
U
=
g
(
X
,
Y
)
U=g(X, Y)
U=g(X,Y) 的密度函数, 增补一个新的随机变量
V
=
h
(
X
,
Y
)
V=h(X, Y)
V=h(X,Y), 一般令
V
V
V
=
X
=X
=X 或
V
=
Y
V=Y
V=Y. 先用变换法求出
(
U
,
V
)
(U, V)
(U,V) 的联合密度函数
p
(
u
,
v
)
p(u, v)
p(u,v), 再对
p
(
u
,
v
)
p(u, v)
p(u,v) 关于
v
v
v积分, 从而得出关于
U
U
U 的边际密度函数.
下面我们以例子形式, 给出两个随机变量的积与商的公式.
- 例 3.3.11(积的公式)
- 设随机变量
X
X
X 与
Y
Y
Y 相互独立, 其密度函数分别为
p
X
(
x
)
p_X(x)
pX(x) 和
p
Y
(
y
)
p_Y(y)
pY(y). 则
U
=
X
Y
U=X Y
U=XY 的密度函数为
p U ( u ) = ∫ − ∞ ∞ p X ( u v ) p Y ( v ) 1 ∣ v ∣ d v . p_U(u)=\int_{-\infty}^{\infty} p_X\left(\frac{u}{v}\right) p_Y(v) \frac{1}{|v|} \mathrm{d} v . pU(u)=∫−∞∞pX(vu)pY(v)∣v∣1dv.
解 记 V = Y V=Y V=Y, 则 { u = x y , v = y \left\{\begin{array}{l}u=x y, \\ v=y\end{array}\right. {u=xy,v=y 的反函数为 { x = u v , y = v , \left\{\begin{array}{l}x=\frac{u}{v}, \\ y=v,\end{array}\right. {x=vu,y=v, 雅可比行列式为
J = ∣ 1 v − u v 2 0 1 ∣ = 1 v , J=\left|\begin{array}{cc} \frac{1}{v} & -\frac{u}{v^2} \\ 0 & 1 \end{array}\right|=\frac{1}{v}, J=∣∣∣∣v10−v2u1∣∣∣∣=v1,
所以 ( U , V ) (U, V) (U,V) 的联合密度函数为
p ( u , v ) = p X ( u v ) ⋅ p Y ( v ) ∣ J ∣ = p X ( u v ) p Y ( v ) 1 ∣ v ∣ . p(u, v)=p_X\left(\frac{u}{v}\right) \cdot p_Y(v)|J|=p_X\left(\frac{u}{v}\right) p_Y(v) \frac{1}{|v|} . p(u,v)=pX(vu)⋅pY(v)∣J∣=pX(vu)pY(v)∣v∣1.
对 p ( u , v ) p(u, v) p(u,v) 关于 v v v 积分, 就可得 U = X Y U=X Y U=XY 的密度函数. - 例 3.3.12(商的公式)
- 设随机变量
X
X
X 与
Y
Y
Y 相互独立, 其密度函数分别为
p
X
(
x
)
p_X(x)
pX(x) 和
p
Y
(
y
)
p_Y(y)
pY(y). 则
U
=
X
/
Y
U=X / Y
U=X/Y 的密度函数为
p v ( u ) = ∫ − ∞ ∞ p x ( u v ) p y ( v ) ∣ v ∣ d v . p_v(u)=\int_{-\infty}^{\infty} p_x(u v) p_y(v)|v| \mathrm{d} v . pv(u)=∫−∞∞px(uv)py(v)∣v∣dv.
解 记 V = Y V=Y V=Y, 则 { u = x / y , v = y \left\{\begin{array}{l}u=x / y, \\ v=y\end{array}\right. {u=x/y,v=y 的反函数为 { x = u v , y = v , \left\{\begin{array}{l}x=u v, \\ y=v,\end{array}\right. {x=uv,y=v, 雅可比行列式为
J = ∣ v u 0 1 ∣ = v , J=\left|\begin{array}{ll} v & u \\ 0 & 1 \end{array}\right|=v, J=∣∣∣∣v0u1∣∣∣∣=v,
所以 ( U , V ) (U, V) (U,V) 的联合密度函数为
p ( u , v ) = p X ( u v ) ⋅ p Y ( v ) ∣ J ∣ = p ( u v , v ) ∣ v ∣ . p(u, v)=p_X(u v) \cdot p_Y(v)|J|=p(u v, v)|v| . p(u,v)=pX(uv)⋅pY(v)∣J∣=p(uv,v)∣v∣.
对 p ( u , v ) p(u, v) p(u,v) 关于 v v v 积分, 就可得 U = X / Y U=X / Y U=X/Y 的密度函数。
3.4 多维随机变量的特征数
3.4.1 多维随机变量函数的数学期望
定理 3.4.1 若二维随机变量 ( X , Y ) (X, Y) (X,Y) 的分布用联合分布列 P ( X = x i , Y = y j ) P\left(X=x_i, Y=y_j\right) P(X=xi,Y=yj) 或用联合密度函数 p ( x , y ) p(x, y) p(x,y) 表示, 则 Z = g ( X , Y ) Z=g(X, Y) Z=g(X,Y) 的数学期望为
E ( Z ) = { ∑ i ∑ j g ( x i , y j ) P ( X = x i , Y = y j ) , 在离散场合, ∫ − ∞ ∞ ∫ − ∞ ∞ g ( x , y ) p ( x , y ) d x d y , 在连续场合. E(Z)= \begin{cases}\sum_i \sum_j g\left(x_i, y_j\right) P\left(X=x_i, Y=y_j\right), & \text { 在离散场合, } \\ \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) p(x, y) \mathrm{d} x \mathrm{~d} y, & \text { 在连续场合. }\end{cases} E(Z)={∑i∑jg(xi,yj)P(X=xi,Y=yj),∫−∞∞∫−∞∞g(x,y)p(x,y)dx dy, 在离散场合, 在连续场合.
还要指出,在连续场合 (离散场合也类似)有:
- 当
g
(
X
,
Y
)
=
X
g(X, Y)=X
g(X,Y)=X 时, 可得
X
X
X 的数学期望为
E ( X ) = ∫ − ∞ ∞ ∫ − ∞ ∞ x p ( x , y ) d x d y = ∫ − ∞ ∞ x p X ( x ) d x . E(X)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x p(x, y) \mathrm{d} x \mathrm{d} y=\int_{-\infty}^{\infty} x p_X(x) \mathrm{d} x . E(X)=∫−∞∞∫−∞∞xp(x,y)dxdy=∫−∞∞xpX(x)dx. - 当
g
(
X
,
Y
)
=
(
X
−
E
(
X
)
)
2
g(X, Y)=(X-E(X))^2
g(X,Y)=(X−E(X))2 时, 可得
X
X
X 的方差为
Var ( X ) = E ( X − E ( X ) ) 2 = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x − E ( X ) ) 2 p ( x , y ) d x d y = ∫ − ∞ ∞ ( x − E ( X ) ) 2 p x ( x ) d x . \begin{aligned} \operatorname{Var}(X) &=E(X-E(X))^2=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty}(x-E(X))^2 p(x, y) \mathrm{d} x \mathrm{d} y \\ &=\int_{-\infty}^{\infty}(x-E(X))^2 p_x(x) \mathrm{d} x . \end{aligned} Var(X)=E(X−E(X))2=∫−∞∞∫−∞∞(x−E(X))2p(x,y)dxdy=∫−∞∞(x−E(X))2px(x)dx.
类似地可给出 Y Y Y 的数学期望与方差的公式.
3.4.2 数学期望与方差的运算性质
性质 3.4.1
设
(
X
,
Y
)
(X, Y)
(X,Y) 是二维随机变量, 则有
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
.
E(X+Y)=E(X)+E(Y) .
E(X+Y)=E(X)+E(Y).
这个性质还可推广到
n
n
n 维随机变量场合, 即
E
(
X
1
+
X
2
+
⋯
+
X
n
)
=
E
(
X
1
)
+
E
(
X
2
)
+
⋯
+
E
(
X
n
)
.
E\left(X_1+X_2+\cdots+X_n\right)=E\left(X_1\right)+E\left(X_2\right)+\cdots+E\left(X_n\right) .
E(X1+X2+⋯+Xn)=E(X1)+E(X2)+⋯+E(Xn).
性质 3.4.2
若随机变量
X
X
X 与
Y
Y
Y 相互独立, 则有
E
(
X
Y
)
=
E
(
X
)
E
(
Y
)
.
E(X Y)=E(X) E(Y).
E(XY)=E(X)E(Y).
在独立场合, 随机变量乘积的数学期望等于数学期望的乘积, 这个性质还可推广到
n
n
n 维随机变量场合, 即若
X
1
,
X
2
,
⋯
,
X
n
X_1, X_2, \cdots, X_n
X1,X2,⋯,Xn 相互独立, 则有
E
(
X
1
X
2
⋯
X
n
)
=
E
(
X
1
)
E
(
X
2
)
⋯
E
(
X
n
)
.
E\left(X_1 X_2 \cdots X_n\right)=E\left(X_1\right) E\left(X_2\right) \cdots E\left(X_n\right) .
E(X1X2⋯Xn)=E(X1)E(X2)⋯E(Xn).
性质 3.4.3
若随机变量
X
X
X 与
Y
Y
Y 相互独立, 则有
Var
(
X
±
Y
)
=
Var
(
X
)
+
Var
(
Y
)
.
\operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) .
Var(X±Y)=Var(X)+Var(Y).
3.4.3 协方差
定义 3.4.1
设
(
X
,
Y
)
(X, Y)
(X,Y) 是一个二维随机变量, 若
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
E[(X-E(X))(Y-E(Y))]
E[(X−E(X))(Y−E(Y))] 存在, 则称此数学期望为
X
X
X 与
Y
Y
Y 的协方差, 或称为
X
X
X 与
Y
Y
Y 的相关 (中心) 矩, 并记为
Cov
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
.
\operatorname{Cov}(X, Y)=E[(X-E(X))(Y-E(Y))] .
Cov(X,Y)=E[(X−E(X))(Y−E(Y))].
特别有
Cov
(
X
,
X
)
=
Var
(
X
)
\operatorname{Cov}(X, X)=\operatorname{Var}(X)
Cov(X,X)=Var(X).
- 当 Cov ( X , Y ) > 0 \operatorname{Cov}(X, Y)>0 Cov(X,Y)>0 时, 称 X X X 与 Y Y Y 正相关, 这时两个偏差 ( X − E ( X ) ) (X-E(X)) (X−E(X)) 与 ( Y − (Y- (Y− E ( Y ) ) E(Y)) E(Y)) 有同时增加或同时减少的倾向.
- 当 Cov ( X , Y ) < 0 \operatorname{Cov}(X, Y)<0 Cov(X,Y)<0 时, 称 X X X 与 Y Y Y 负相关, 这时有 X X X 增加而 Y Y Y 减少的倾向, 或 有 Y Y Y 增加而 X X X 椷少的倾向.
- 当 Cov ( X , Y ) = 0 \operatorname{Cov}(X, Y)=0 Cov(X,Y)=0 时, 称 X X X 与 Y Y Y 不相关. 这时可能由两类情况导致:一类是 X X X 与 Y Y Y 的取值毫无关联 (见性质 3.4.5), 另一类是 X X X 与 Y Y Y 间存有某种非线性关系.
性质 3. 4. 4
Cov
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)
Cov(X,Y)=E(XY)−E(X)E(Y).
下面的性质表明: “不相关”是比“独立”更弱的一个概念.
性质 3.4.5
若随机变量
X
X
X 与
Y
Y
Y 相互独立, 则
Cov
(
X
,
Y
)
=
0
\operatorname{Cov}(X, Y)=0
Cov(X,Y)=0, 反之不然.
性质 3.4.6
对任意二维随机变量
(
X
,
Y
)
(X, Y)
(X,Y), 有
Var
(
X
±
Y
)
=
Var
(
X
)
+
Var
(
Y
)
±
2
Cov
(
X
,
Y
)
.
\operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) \pm 2 \operatorname{Cov}(X, Y) .
Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y).
若
X
X
X 与
Y
Y
Y 不相关. 则
Var
(
X
±
Y
)
=
Var
(
X
)
+
Var
(
Y
)
\operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)
Var(X±Y)=Var(X)+Var(Y)
以上性质 3.4.6 还可以推广到更多个随机变量场合, 即对任意
n
n
n 个随机变 量
X
1
,
X
2
,
⋯
,
X
n
X_1, X_2, \cdots, X_n
X1,X2,⋯,Xn, 有
Var
(
∑
i
=
1
n
X
i
)
=
∑
i
=
1
n
Var
(
X
i
)
+
2
∑
i
=
1
n
∑
j
=
1
i
−
1
Cov
(
X
i
,
X
j
)
.
\operatorname{Var}\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n \operatorname{Var}\left(X_i\right)+2 \sum_{i=1}^n \sum_{j=1}^{i-1} \operatorname{Cov}\left(X_i, X_j\right) .
Var(i=1∑nXi)=i=1∑nVar(Xi)+2i=1∑nj=1∑i−1Cov(Xi,Xj).
性质 3.4.7
协方差
Cov
(
X
,
Y
)
\operatorname{Cov}(X, Y)
Cov(X,Y) 的计算与
X
,
Y
X, Y
X,Y 的次序无关, 即
Cov
(
X
,
Y
)
=
Cov
(
Y
,
X
)
.
\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X) .
Cov(X,Y)=Cov(Y,X).
性质 3.4.8
任意随机变量
X
X
X 与常数
a
a
a 的协方差为零, 即
Cov
(
X
,
a
)
=
0.
\operatorname{Cov}(X, a)=0 .
Cov(X,a)=0.
性质 3.4.9
对任意常数
a
,
b
a, b
a,b, 有
Cov
(
a
X
,
b
Y
)
=
a
b
Cov
(
X
,
Y
)
.
\operatorname{Cov}(a X, b Y)=a b \operatorname{Cov}(X, Y) .
Cov(aX,bY)=abCov(X,Y).
性质 3.4.10
设
X
,
Y
,
Z
X, Y, Z
X,Y,Z 是任意三个随机变量, 则
Cov
(
X
+
Y
,
Z
)
=
Cov
(
X
,
Z
)
+
Cov
(
Y
,
Z
)
.
\operatorname{Cov}(X+Y, Z)=\operatorname{Cov}(X, Z)+\operatorname{Cov}(Y, Z) .
Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z).
3.4.4 相关系数
定义 3.4.2
设
(
X
,
Y
)
(X, Y)
(X,Y) 是一个二维随机变量, 且
Var
(
X
)
=
σ
X
2
>
0
,
Var
(
Y
)
=
\operatorname{Var}(X)=\sigma_X^2>0, \operatorname{Var}(Y)=
Var(X)=σX2>0,Var(Y)=
σ
Y
2
>
0
\sigma_Y^2>0
σY2>0. 则称
Corr
(
X
,
Y
)
=
Cov
(
X
,
Y
)
Var
(
X
)
Var
(
Y
)
=
Cov
(
X
,
Y
)
σ
X
σ
Y
\operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \sqrt{\operatorname{Var}(Y)}}=\frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y}
Corr(X,Y)=Var(X)Var(Y)Cov(X,Y)=σXσYCov(X,Y)
为
X
X
X 与
Y
Y
Y 的(线性)相关系数.
相关系数的另一个解释是: 它是相应标准化变量的协方差. 若记
X
X
X 与
Y
Y
Y 的数学期望分别为
μ
x
,
μ
Y
\mu_x, \mu_Y
μx,μY,其标准化变量为
X
∗
=
X
−
μ
X
σ
X
,
Y
∗
=
Y
−
μ
Y
σ
Y
,
X^*=\frac{X-\mu_X}{\sigma_X}, \quad Y^*=\frac{Y-\mu_Y}{\sigma_Y},
X∗=σXX−μX,Y∗=σYY−μY,
则有
Cov
(
X
∗
,
Y
∗
)
=
Cov
(
X
−
μ
X
σ
X
,
Y
−
μ
Y
σ
Y
)
=
Cov
(
X
,
Y
)
σ
X
σ
Y
=
Corr
(
X
,
Y
)
.
\operatorname{Cov}\left(X^*, Y^*\right)=\operatorname{Cov}\left(\frac{X-\mu_X}{\sigma_X}, \frac{Y-\mu_Y}{\sigma_Y}\right)=\frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y}=\operatorname{Corr}(X, Y) .
Cov(X∗,Y∗)=Cov(σXX−μX,σYY−μY)=σXσYCov(X,Y)=Corr(X,Y).
引理 3.4.1 施瓦茨 (Schwarz) 不等式) 对任意二维随机变量 ( X , Y ) (X, Y) (X,Y), 若 X X X 与 Y Y Y 的方差都存在, 且记 σ X 2 = Var ( X ) , σ Y 2 = Var ( Y ) \sigma_X^2=\operatorname{Var}(X), \sigma_Y^2=\operatorname{Var}(Y) σX2=Var(X),σY2=Var(Y), 则有
[ Cov ( X , Y ) ] 2 ⩽ σ X 2 σ γ 2 . [\operatorname{Cov}(X, Y)]^2 \leqslant \sigma_X^2 \sigma_\gamma^2 \text {. } [Cov(X,Y)]2⩽σX2σγ2. .
性质 3. 4.11
−
1
⩽
Corr
(
X
,
Y
)
⩽
1
-1 \leqslant \operatorname{Corr}(X, Y) \leqslant 1
−1⩽Corr(X,Y)⩽1, 或
∣
Corr
(
X
,
Y
)
∣
⩽
1
|\operatorname{Corr}(X, Y)| \leqslant 1
∣Corr(X,Y)∣⩽1.
性质 3. 4.12
Corr
(
X
,
Y
)
=
±
1
\operatorname{Corr}(X, Y)=\pm 1
Corr(X,Y)=±1 的充要条件是
X
X
X 与
Y
Y
Y 间几乎处处有线性关系, 即存在
a
(
≠
0
)
a(\neq 0)
a(=0) 与
b
b
b, 使得
P
(
Y
=
a
X
+
b
)
=
1.
P(Y=a X+b)=1 .
P(Y=aX+b)=1.
其中当
Corr
(
X
,
Y
)
=
1
\operatorname{Corr}(X, Y)=1
Corr(X,Y)=1 时, 有
a
>
0
a>0
a>0; 当
Corr
(
X
,
Y
)
=
−
1
\operatorname{Corr}(X, Y)=-1
Corr(X,Y)=−1 时, 有
a
<
0
a<0
a<0.
性质 3.4.13 在二维正态分布 N ( μ 1 , μ 2 , σ 1 2 , σ 2 2 , ρ ) N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right) N(μ1,μ2,σ12,σ22,ρ) 场合, 不相关与独立是等价的.
3.4.5 随机向量的数学期望向量与协方差矩阵
以下我们用矩阵形式给出
n
n
n 维随机变量的数学期望与方差.
定义 3.4.3
记
n
n
n 维随机向量为
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
′
\boldsymbol{X}=\left(X_1, X_2, \cdots, X_n\right)^{\prime}
X=(X1,X2,⋯,Xn)′, 若其每个分量的数学期望都存在,则称
E
(
X
)
=
(
E
(
X
1
)
,
E
(
X
2
)
,
⋯
,
E
(
X
n
)
)
′
E(X)=\left(E\left(X_1\right), E\left(X_2\right), \cdots, E\left(X_n\right)\right)^{\prime}
E(X)=(E(X1),E(X2),⋯,E(Xn))′
为
n
n
n 维随机向量
X
X
X 的数学期望向量, 简称为
X
X
X 的数学期望, 而称
E
[
(
X
−
E
(
X
)
)
(
X
−
E
(
X
)
)
′
]
=
(
Var
(
X
1
)
Cov
(
X
1
,
X
2
)
⋯
Cov
(
X
1
,
X
n
)
Cov
(
X
2
,
X
1
)
Var
(
X
2
)
⋯
Cov
(
X
2
,
X
n
)
⋮
⋮
⋮
Cov
(
X
n
,
X
1
)
Cov
(
X
n
,
X
2
)
⋯
Var
(
X
n
)
)
\begin{aligned} & E\left[(\boldsymbol{X}-E(\boldsymbol{X}))(\boldsymbol{X}-\boldsymbol{E}(\boldsymbol{X}))^{\prime}\right] \\ =&\left(\begin{array}{cccc} \operatorname{Var}\left(X_1\right) & \operatorname{Cov}\left(X_1, X_2\right) & \cdots & \operatorname{Cov}\left(X_1, X_n\right) \\ \operatorname{Cov}\left(X_2, X_1\right) & \operatorname{Var}\left(X_2\right) & \cdots & \operatorname{Cov}\left(X_2, X_n\right) \\ \vdots & \vdots & & \vdots \\ \operatorname{Cov}\left(X_n, X_1\right) & \operatorname{Cov}\left(X_n, X_2\right) & \cdots & \operatorname{Var}\left(X_n\right) \end{array}\right) \end{aligned}
=E[(X−E(X))(X−E(X))′]⎝⎜⎜⎜⎛Var(X1)Cov(X2,X1)⋮Cov(Xn,X1)Cov(X1,X2)Var(X2)⋮Cov(Xn,X2)⋯⋯⋯Cov(X1,Xn)Cov(X2,Xn)⋮Var(Xn)⎠⎟⎟⎟⎞
为该随机向量的方差-协方差矩阵,简称协方差阵,记为
Cov
(
X
)
\operatorname{Cov}(\boldsymbol{X})
Cov(X).
定理 3.4.2 n n n 维随机向量的协方差矩阵 Cov ( X ) = ( Cov ( X i , X j ) ) n × n \operatorname{Cov}(\boldsymbol{X})=\left(\operatorname{Cov}\left(X_i, X_j\right)\right)_{n \times n} Cov(X)=(Cov(Xi,Xj))n×n 是一个对称的非负定矩阵.
3.5 条件分布与条件期望
3.5.1 条件分布
一、离散随机变量的条件分布
设二维离散随机变量
(
X
,
Y
)
(X, Y)
(X,Y) 的联合分布列为
p
i
j
=
P
(
X
=
x
i
,
Y
=
y
j
)
,
i
=
1
,
2
,
⋯
,
j
=
1
,
2
,
⋯
.
p_{i j}=P\left(X=x_i, Y=y_j\right), \quad i=1,2, \cdots, \quad j=1,2, \cdots .
pij=P(X=xi,Y=yj),i=1,2,⋯,j=1,2,⋯.
定义 3.5.1
对一切使
P
(
Y
=
y
j
)
=
p
⋅
j
=
∑
i
=
1
∞
p
i
j
>
0
P\left(Y=y_j\right)=p_{ \cdot j}=\sum_{i=1}^{\infty} p_{i j}>0
P(Y=yj)=p⋅j=∑i=1∞pij>0 的
y
j
y_j
yj, 称
p
i
∣
j
=
P
(
X
=
x
i
∣
Y
=
y
j
)
=
P
(
X
=
x
i
,
Y
=
y
j
)
P
(
Y
=
y
j
)
=
p
i
j
p
⋅
j
,
i
=
1
,
2
,
⋯
p_{i|j}=P\left(X=x_i \mid Y=y_j\right)=\frac{P\left(X=x_i, Y=y_j\right)}{P\left(Y=y_j\right)}=\frac{p_{i j}}{p_{\cdot j }}, \quad i=1,2, \cdots
pi∣j=P(X=xi∣Y=yj)=P(Y=yj)P(X=xi,Y=yj)=p⋅jpij,i=1,2,⋯
为给定
Y
=
y
j
Y=y_j
Y=yj 条件下
X
X
X 的条件分布列.
Y同理。
定义 3.5.2
给定
Y
=
y
j
Y=y_j
Y=yj 条件下
X
X
X 的条件分布函数为
F
(
x
∣
y
j
)
=
∑
x
i
⩽
x
P
(
X
=
x
i
∣
Y
=
y
j
)
=
∑
x
i
⩽
x
P
i
∣
j
,
F\left(x \mid y_j\right)=\sum_{x_i \leqslant x} P\left(X=x_i \mid Y=y_j\right)=\sum_{x_i \leqslant x} P_{i| j},
F(x∣yj)=xi⩽x∑P(X=xi∣Y=yj)=xi⩽x∑Pi∣j,
Y同理。
二、连续随机变量的条件分布
定义 3.5.3
对一切使
p
Y
(
y
)
>
0
p_Y(y)>0
pY(y)>0 的
y
y
y, 给定
Y
=
y
Y=y
Y=y 条件下
X
X
X 的条件分布函数和条件密度函数分别为
F
(
x
∣
y
)
=
∫
−
∞
x
p
(
u
,
y
)
p
Y
(
y
)
d
u
,
p
(
x
∣
y
)
=
p
(
x
,
y
)
p
Y
(
y
)
.
\begin{aligned} &F(x \mid y)=\int_{-\infty}^x \frac{p(u, y)}{p_Y(y)} \mathrm{d} u, \\ &p(x \mid y)=\frac{p(x, y)}{p_Y(y)} . \end{aligned}
F(x∣y)=∫−∞xpY(y)p(u,y)du,p(x∣y)=pY(y)p(x,y).
Y同理。
三、连续场合的全概率公式和贝叶斯公式
p
(
x
,
y
)
=
p
X
(
x
)
p
(
y
∣
x
)
,
\begin{aligned} &p(x, y)=p_X(x) p(y \mid x), \\ \end{aligned}
p(x,y)=pX(x)p(y∣x),
再对
p
(
x
,
y
)
p(x, y)
p(x,y) 求边际密度函数, 就得全概率公式的密度函数形式:
p
Y
(
y
)
=
∫
−
∞
∞
p
X
(
x
)
p
(
y
∣
x
)
d
x
,
\begin{aligned} &p_Y(y)=\int_{-\infty}^{\infty} p_X(x) p(y \mid x) \mathrm{d} x, \\ \end{aligned}
pY(y)=∫−∞∞pX(x)p(y∣x)dx,
就得贝叶斯公式的密度函数形式:
p
(
x
∣
y
)
=
p
X
(
x
)
p
(
y
∣
x
)
∫
−
∞
∞
p
X
(
x
)
p
(
y
∣
x
)
d
x
。
p(x \mid y)=\frac{p_X(x) p(y \mid x)}{\int_{-\infty}^{\infty} p_X(x) p(y \mid x) \mathrm{d} x}。
p(x∣y)=∫−∞∞pX(x)p(y∣x)dxpX(x)p(y∣x)。
3.5.2 条件数学期望
定义 3.5.4
条件分布的数学期望(若存在)称为条件期望,其定义如下:
E
(
X
∣
Y
=
y
)
=
{
∑
i
x
i
P
(
X
=
x
i
∣
Y
=
y
)
,
(
X
,
Y
)
为二维离散随机变量,
∫
−
∞
∞
x
p
(
x
∣
y
)
d
x
,
(
X
,
Y
)
为二维连续随机变量.
E(X \mid Y=y)=\left\{\begin{array}{cl}\sum_i x_i P\left(X=x_i \mid Y=y\right), & (X, Y) \text { 为二维离散随机变量, } \\ \int_{-\infty}^{\infty} x p(x \mid y) \mathrm{d} x, & (X, Y) \text { 为二维连续随机变量. }\end{array}\right.
E(X∣Y=y)={∑ixiP(X=xi∣Y=y),∫−∞∞xp(x∣y)dx,(X,Y) 为二维离散随机变量, (X,Y) 为二维连续随机变量.
因为条件期望是条件分布的数学期望, 所以它具有数学期望的一切性质, 例如
E
(
a
1
X
1
+
a
2
X
2
∣
Y
=
y
)
=
a
1
E
(
X
1
∣
Y
=
y
)
+
a
2
E
(
X
2
∣
Y
=
y
)
.
E\left(a_1 X_1+a_2 X_2 \mid Y=y\right)=a_1 E\left(X_1 \mid Y=y\right)+a_2 E\left(X_2 \mid Y=y\right) .
E(a1X1+a2X2∣Y=y)=a1E(X1∣Y=y)+a2E(X2∣Y=y).
其他性质在此不一一列举.
定理 3.5.1 (重期望公式) 设 ( X , Y ) (X, Y) (X,Y) 是二维随机变量, 且 E ( X ) E(X) E(X) 存在, 则
E ( X ) = E ( E ( X ∣ Y ) ) . E(X)=E(E(X \mid Y)) . E(X)=E(E(X∣Y)).
重期望公式的具体使用如下:
(1) 如果
Y
Y
Y 是一个离散随机变量, 则
E
(
X
)
=
∑
j
E
(
X
∣
Y
=
y
j
)
P
(
Y
=
y
j
)
.
E(X)=\sum_j E\left(X \mid Y=y_j\right) P\left(Y=y_j\right) .
E(X)=j∑E(X∣Y=yj)P(Y=yj).
(2) 如果
Y
Y
Y 是一个连续随机变量,则
E
(
X
)
=
∫
−
∞
∞
E
(
X
∣
Y
=
y
)
p
Y
(
y
)
d
y
.
E(X)=\int_{-\infty}^{\infty} E(X \mid Y=y) p_Y(y) \mathrm{d} y .
E(X)=∫−∞∞E(X∣Y=y)pY(y)dy.