第二章 随机变量与分布函数(3)
1.多维随机变量与分布函数
多维随机变量也称为随机向量,这个概念很好理解,就是把定义在同一概率空间的两个至多个随机变量联合起来以向量的形式考虑。将随机变量联合起来,主要是考虑它们的相关性问题。与一维随机变量类似,随机向量也有离散型、连续型等,接下来主要考虑二维随机向量 ( X , Y ) (X,Y) (X,Y)。
随机变量有分布函数,随机向量一样也有联合分布函数,且定义是类似的:
F
X
,
Y
(
x
,
y
)
=
P
(
X
≤
x
,
Y
≤
y
)
.
F_{X,Y}(x,y)=P(X\le x,Y\le y).
FX,Y(x,y)=P(X≤x,Y≤y).
在不引起混淆的情况下,下标可以省略不写。显然有
F
(
∞
,
∞
)
=
1
,
F
(
−
∞
,
y
)
=
F
(
x
,
−
∞
)
=
F
(
−
∞
,
−
∞
)
=
0.
F(\infty ,\infty)=1,F(-\infty,y)=F(x,-\infty )=F(-\infty,-\infty)=0.
F(∞,∞)=1,F(−∞,y)=F(x,−∞)=F(−∞,−∞)=0.
并且对于二维Borel集,取一个矩形
B
2
:
a
1
<
x
≤
b
1
,
a
2
<
y
≤
b
2
B^2:a_1<x\le b_1,a_2<y\le b_2
B2:a1<x≤b1,a2<y≤b2,它是一个Borel集,故它所代表的等价事件概率一定有非负性,即
P
(
(
X
,
Y
)
∈
B
2
)
=
F
(
b
1
,
b
2
)
−
F
(
a
1
,
b
2
)
−
F
(
b
1
,
a
2
)
+
F
(
a
1
,
a
2
)
≥
0.
P((X,Y)\in B^2)=F(b_1,b_2)-F(a_1,b_2)-F(b_1,a_2)+F(a_1,a_2)\ge0.
P((X,Y)∈B2)=F(b1,b2)−F(a1,b2)−F(b1,a2)+F(a1,a2)≥0.
所以二维函数除了具有单调不减、右连续、极限性外,还必须满足以上这条性质,才能是一个二维连和分布函数。事实上可以举出满足前三条,但不满足最后一条性质的二维函数。
除此之外,随机向量中的每一个随机变量自己也有自己的分布函数,这在随机向量中叫作边际分布函数。即
F
X
(
x
)
=
P
(
X
≤
x
)
F_X(x)=P(X\le x)
FX(x)=P(X≤x)与
F
Y
(
y
)
=
P
(
Y
≤
y
)
F_Y(y)=P(Y\le y)
FY(y)=P(Y≤y)。并且:
F
X
(
x
)
=
F
(
x
,
∞
)
;
F
Y
(
y
)
=
F
(
∞
,
y
)
.
F_X(x)=F(x,\infty);\\ F_Y(y)=F(\infty, y).
FX(x)=F(x,∞);FY(y)=F(∞,y).
从直观上理解,要求
x
x
x的边际分布函数,就是不限
y
y
y的取值,也就是
y
≤
∞
y\le\infty
y≤∞,所以在联合分布中
y
y
y的位置取
∞
\infty
∞;同理要求
y
y
y的边际分布函数,就是不限
x
x
x的取值,也就是
x
≤
∞
x\le \infty
x≤∞,所以在联合分布中
x
x
x的位置取
∞
\infty
∞。这是两个比较重要的公式,尤其是对接下来要说到的连续随机向量而言。
需要注意,给定联合分布以后两个随机变量的边际分布也随之确定,但给定两个随机变量的边际分布却不能反推联合分布,因为边际分布中不含两个随机变量相关性的信息。
2.离散随机向量
如果 ( X , Y ) (X,Y) (X,Y)中, X , Y X,Y X,Y都是离散型的,那么由三角形法, ( X , Y ) (X,Y) (X,Y)的可能取值也一定是可列的,也就是说对于每一个 X = x i , Y = y i X=x_i,Y=y_i X=xi,Y=yi,都可以用一个概率 p i j p_{ij} pij描述 P ( X = x i , Y = y j ) P(X=x_i,Y=y_j) P(X=xi,Y=yj)。这样的 ( X , Y ) (X,Y) (X,Y)称为离散型随机向量,它的分布可以用二维表刻画,即:
y 1 y_1 y1 | y 2 y_2 y2 | ⋯ \cdots ⋯ | y j y_j yj | ⋯ \cdots ⋯ | |
---|---|---|---|---|---|
x 1 x_1 x1 | p 11 p_{11} p11 | p 12 p_{12} p12 | ⋯ \cdots ⋯ | p 1 j p_{1j} p1j | ⋯ \cdots ⋯ |
x 2 x_2 x2 | p 21 p_{21} p21 | p 22 p_{22} p22 | ⋯ \cdots ⋯ | p 2 j p_{2j} p2j | ⋯ \cdots ⋯ |
⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ |
x i x_i xi | p i 1 p_{i1} pi1 | p i 2 p_{i2} pi2 | ⋯ \cdots ⋯ | p i j p_{ij} pij | ⋯ \cdots ⋯ |
⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ | ⋮ \vdots ⋮ |
对于离散随机向量,由于每一个随机变量都是离散的,其边际分布也可以用边际分布列来刻画,由全概率公式,有
P
(
X
=
x
i
)
=
∑
j
=
1
∞
P
(
X
=
x
i
∣
Y
=
y
j
)
P
(
Y
=
y
j
)
=
∑
j
=
1
∞
P
(
X
=
x
i
,
Y
=
y
j
)
=
∑
j
=
1
∞
p
i
j
=
Δ
p
i
⋅
.
\begin{aligned} &P(X=x_i)\\=&\sum_{j=1}^\infty P(X=x_i|Y=y_j)P(Y=y_j)\\ =&\sum_{j=1}^\infty P(X=x_i, Y=y_j)\\ =&\sum_{j=1}^\infty p_{ij}\stackrel {\Delta}=p_{i\cdot}. \end{aligned}
===P(X=xi)j=1∑∞P(X=xi∣Y=yj)P(Y=yj)j=1∑∞P(X=xi,Y=yj)j=1∑∞pij=Δpi⋅.
这里
p
i
⋅
p_{i\cdot}
pi⋅定义为将第
i
i
i行的所有
p
i
j
p_{ij}
pij相加。对
Y
Y
Y求边际分布列也是如此。也就是说,离散随机向量的边际分布为按行、列相加的和。
3.连续型随机向量
类似于一维连续随机变量的定义,如果存在一个非负可积函数
p
X
,
Y
(
x
,
y
)
p_{X,Y}(x,y)
pX,Y(x,y),使得
F
X
,
Y
(
x
,
y
)
=
∫
−
∞
x
∫
−
∞
y
p
X
,
Y
(
s
,
t
)
d
t
d
s
,
F_{X,Y}(x,y)=\int_{-\infty }^x \int_{-\infty}^y p_{X,Y}(s,t)dt ds,
FX,Y(x,y)=∫−∞x∫−∞ypX,Y(s,t)dtds,
则称随机向量
(
X
,
Y
)
(X,Y)
(X,Y)是连续的,在不引起混淆的前提下可以省略下标。显然有
∫
R
∫
R
p
(
s
,
t
)
d
t
d
s
=
1
\int_\R \int_\R p(s,t)dtds=1
∫R∫Rp(s,t)dtds=1。对于二维Borel集
B
B
B,
P
(
(
X
,
Y
)
∈
B
)
=
∬
(
x
,
y
)
∈
B
p
(
s
,
t
)
d
t
d
s
P((X,Y)\in B)=\iint\limits_{(x,y)\in B}p(s,t)dtds
P((X,Y)∈B)=(x,y)∈B∬p(s,t)dtds。
对于连续随机向量
(
X
,
Y
)
(X,Y)
(X,Y),里面的每一个分量也是连续随机变量。要求连续随机变量的边际分布,也可以用边际密度来刻画。因为
F
X
(
x
)
=
F
(
x
,
∞
)
=
∫
−
∞
x
[
∫
−
∞
∞
p
(
s
,
t
)
d
t
]
d
s
,
F_X(x)=F(x,\infty)=\int_{-\infty}^x\left[\int_{-\infty}^\infty p(s,t)dt\right]ds,
FX(x)=F(x,∞)=∫−∞x[∫−∞∞p(s,t)dt]ds,
所以边际密度又可以写成
p
X
(
x
)
=
∫
−
∞
∞
p
(
x
,
y
)
d
y
p_X(x)=\int_{-\infty}^{\infty} p(x,y)dy
pX(x)=∫−∞∞p(x,y)dy。
至此,我们得到了连续随机变量的分布函数、密度函数的相关转化式:
- 联合分布→边际分布: F X ( x ) = F ( x , ∞ ) , F Y ( y ) = F ( ∞ , y ) F_X(x)=F(x,\infty),F_Y(y)=F(\infty ,y) FX(x)=F(x,∞),FY(y)=F(∞,y);
- 边际分布一般情况下无法反推联合分布;
- 联合分布→联合密度: p ( x , y ) = ∂ 2 F ( x , y ) ∂ x ∂ y p(x,y)=\frac{\partial^2F(x,y)}{\partial x\partial y} p(x,y)=∂x∂y∂2F(x,y);
- 联合密度→联合分布: F ( x , y ) = ∫ − ∞ x ∫ − ∞ y p ( s , t ) d t d s F(x,y)=\int_{-\infty}^x\int_{-\infty }^yp(s,t)dtds F(x,y)=∫−∞x∫−∞yp(s,t)dtds;
- 边际分布与边际密度的关系与一般分布函数和密度函数关系相同;
- 联合密度→边际密度: p X ( x ) = ∫ − ∞ ∞ p ( x , y ) d y , p Y ( y ) = ∫ − ∞ ∞ p ( x , y ) d x p_X(x)=\int_{-\infty}^{\infty} p(x,y)dy,p_Y(y)=\int_{-\infty}^\infty p(x,y) dx pX(x)=∫−∞∞p(x,y)dy,pY(y)=∫−∞∞p(x,y)dx;
- 边际密度一般情况下无法反推联合密度。
以上关系十分重要。
4.*多维正态分布
由于在统计中经常运用到正态分布,对于两个正态分布之间的关系,我们可以将其联合起来研究,这就得到了多维正态分布。
先以
n
n
n维为例,设
B
=
(
b
i
j
)
\boldsymbol B=(b_{ij})
B=(bij)是
n
n
n维正定矩阵,
∣
B
∣
|\boldsymbol B|
∣B∣为其行列式,
B
−
1
\boldsymbol B^{-1}
B−1为其逆。列向量
x
=
(
x
1
,
⋯
,
x
n
)
T
\boldsymbol x=(x_1,\cdots,x_n)^T
x=(x1,⋯,xn)T代表随机向量
(
X
1
,
⋯
,
X
n
)
(X_1,\cdots,X_n)
(X1,⋯,Xn)的联合分布取值,列向量
a
=
(
a
1
,
⋯
,
a
n
)
T
\boldsymbol a=(a_1,\cdots,a_n)^T
a=(a1,⋯,an)T是一列常数向量,则称
p
(
x
)
=
1
(
2
π
)
n
/
2
∣
B
∣
1
/
2
exp
{
−
1
2
(
x
−
a
)
T
B
−
1
(
x
−
a
)
}
p(\boldsymbol x)=\frac{1}{(2\pi)^{n/2}|\boldsymbol B|^{1/2}}\exp\left\{ -\frac12(\boldsymbol x-\boldsymbol a)^T \boldsymbol B^{-1}(\boldsymbol x-\boldsymbol a) \right\}
p(x)=(2π)n/2∣B∣1/21exp{−21(x−a)TB−1(x−a)}
为
n
n
n为正态密度函数,记作
N
=
(
a
,
B
)
N=(\boldsymbol a,\boldsymbol B)
N=(a,B)。
- 正定矩阵,指的是对于矩阵 A \boldsymbol A A与列向量 X = ( x 1 , ⋯ , x n ) T \boldsymbol X=(x_1,\cdots,x_n)^T X=(x1,⋯,xn)T,二次型 X T A X \boldsymbol X^T \boldsymbol A\boldsymbol X XTAX是一个关于 ( x 1 , ⋯ , x n ) (x_1,\cdots,x_n) (x1,⋯,xn)的多项式,不论 X \boldsymbol X X取哪个具体的值 X 0 \boldsymbol X_0 X0, X 0 T A X 0 > 0 \boldsymbol X_0^T\boldsymbol A\boldsymbol X_0>0 X0TAX0>0恒成立。
- 正定矩阵的逆矩阵也是正定矩阵,也就是说这里 B − 1 \boldsymbol B^{-1} B−1也是正定的。且正定矩阵一定是对称的。
- 在满足正定性的情况下,能保证无论 x \boldsymbol x x取多少, exp \exp exp函数内的值都是负数,对比一维正态分布可以发现这一点。
-
A
A
A是
n
n
n阶正定矩阵的等价命题有
- A A A是正定的;
- A A A的一切顺序主子式均为正(顺序主子式是左上角的方阵);
- A A A的一切主子式均为正(行号列号相等的交叉元素构成的方阵);
- A A A的一切特征值均为正;
- 存在可逆矩阵 C C C,使得 A = C T C A=C^T C A=CTC;
- 存在秩为 n n n的 m × n m\times n m×n实矩阵,使 A = B T B A=B^T B A=BTB;
- 存在主对角线元素全为正的实三角阵 R R R,使 A = R T R A=R^T R A=RTR。
一般
n
n
n维的正态分布在书写上不方便,但2维的正态分布还是很常见的,此时可以取
B
=
(
σ
1
2
r
σ
1
σ
2
r
σ
1
σ
2
σ
2
2
)
,
B
−
1
=
B
∗
∣
B
∣
=
1
∣
B
∣
(
σ
2
2
−
r
σ
1
σ
2
−
r
σ
1
σ
2
σ
1
2
)
,
a
=
(
a
b
)
.
\boldsymbol B=\left( \begin{matrix} \sigma_1^2 &r\sigma_1\sigma_2\\ r\sigma_1\sigma_2&\sigma_2^2 \end{matrix} \right),\boldsymbol B^{-1}=\frac{\boldsymbol B^*}{|\boldsymbol B|}=\frac 1{|\boldsymbol B|} \left( \begin{matrix} \sigma_2^2 &-r\sigma_1\sigma_2\\ -r\sigma_1\sigma_2&\sigma_1^2 \end{matrix} \right),\boldsymbol a=\left( \begin{matrix} a\\b \end{matrix} \right).
B=(σ12rσ1σ2rσ1σ2σ22),B−1=∣B∣B∗=∣B∣1(σ22−rσ1σ2−rσ1σ2σ12),a=(ab).
这样,
∣
B
∣
=
σ
1
2
σ
2
2
(
1
−
r
2
)
|B|=\sigma_1^2\sigma_2^2(1-r^2)
∣B∣=σ12σ22(1−r2),
(
x
−
a
)
T
B
−
1
(
x
−
a
)
=
(
x
1
−
a
x
2
−
b
)
(
σ
2
2
−
r
σ
1
σ
2
−
r
σ
1
σ
2
σ
1
2
)
(
x
1
−
a
x
2
−
b
)
/
∣
B
∣
=
[
σ
2
2
(
x
1
−
a
)
2
−
2
r
σ
1
σ
2
(
x
1
−
a
)
(
x
2
−
b
)
+
σ
1
2
(
x
2
−
b
)
2
]
/
∣
B
∣
=
σ
2
2
(
x
1
−
a
)
2
−
2
r
σ
1
σ
2
(
x
1
−
a
)
(
x
2
−
b
)
+
σ
1
2
(
x
2
−
b
)
2
σ
1
2
σ
2
2
(
1
−
r
2
)
=
1
1
−
r
2
[
(
x
1
−
a
)
2
σ
1
2
−
2
r
(
x
1
−
a
)
(
x
2
−
b
)
σ
1
σ
2
+
(
x
2
−
b
)
2
σ
2
2
]
\begin{aligned} &(\boldsymbol x-\boldsymbol a)^T\boldsymbol B^{-1}(\boldsymbol x-\boldsymbol a)\\ =&\left( \begin{matrix} x_1-a& x_2-b \end{matrix} \right) \left( \begin{matrix} \sigma_2^2&-r\sigma_1\sigma_2\\ -r\sigma_1\sigma_2&\sigma_1^2 \end{matrix} \right) \left( \begin{matrix} x_1-a\\ x_2-b \end{matrix} \right)/|\boldsymbol B|\\ =&[\sigma_2^2(x_1-a)^2-2r\sigma_1\sigma_2(x_1-a)(x_2-b)+\sigma_1^2(x_2-b)^2]/|\boldsymbol B|\\ =&\frac{\sigma_2^2(x_1-a)^2-2r\sigma_1\sigma_2(x_1-a)(x_2-b)+\sigma_1^2(x_2-b)^2}{\sigma_1^2\sigma_2^2(1-r^2)}\\ =&\frac{1}{1-r^2}\left[\frac{(x_1-a)^2}{\sigma_1^2}-\frac{2r(x_1-a)(x_2-b)}{\sigma_1\sigma_2}+\frac{(x_2-b)^2}{\sigma_2^2}\right] \end{aligned}
====(x−a)TB−1(x−a)(x1−ax2−b)(σ22−rσ1σ2−rσ1σ2σ12)(x1−ax2−b)/∣B∣[σ22(x1−a)2−2rσ1σ2(x1−a)(x2−b)+σ12(x2−b)2]/∣B∣σ12σ22(1−r2)σ22(x1−a)2−2rσ1σ2(x1−a)(x2−b)+σ12(x2−b)21−r21[σ12(x1−a)2−σ1σ22r(x1−a)(x2−b)+σ22(x2−b)2]
所以二维联合分布的联合密度是
p
(
x
,
y
)
=
1
2
π
σ
1
σ
2
1
−
r
2
exp
{
−
1
2
(
1
−
r
2
)
×
[
(
x
1
−
a
)
2
σ
1
2
−
2
r
(
x
1
−
a
)
(
x
2
−
b
)
σ
1
σ
2
+
(
x
2
−
b
)
2
σ
2
2
]
}
p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-r^2}}\exp\left\{ -\frac{1}{2(1-r^2)}\times\left[\frac{(x_1-a)^2}{\sigma_1^2}-\frac{2r(x_1-a)(x_2-b)}{\sigma_1\sigma_2}+\frac{(x_2-b)^2}{\sigma_2^2}\right] \right\}
p(x,y)=2πσ1σ21−r21exp{−2(1−r2)1×[σ12(x1−a)2−σ1σ22r(x1−a)(x2−b)+σ22(x2−b)2]}
基于此可以计算
X
,
Y
X,Y
X,Y的边际密度,但稍显复杂,是
p
X
(
x
)
=
1
2
π
σ
1
e
−
(
x
−
a
)
2
2
σ
1
2
;
p
Y
(
y
)
=
1
2
π
σ
2
e
−
(
y
−
b
)
2
2
σ
2
2
.
p_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-a)^2}{2\sigma_1^2}};p_Y(y)=\frac{1}{\sqrt{2\pi} \sigma_2}e^{-\frac{(y-b)^2}{2\sigma_2^2}}.
pX(x)=2πσ11e−2σ12(x−a)2;pY(y)=2πσ21e−2σ22(y−b)2.