一、多元统计基础
1.基本定义与样本数据阵
多元统计与一元统计的最大不同,就在于一元统计的样本全部来自一元总体,而多元总体的样本来自多元总体,用多个随机变量刻画它的多个维度。比如,要获得人的身高分布情况,只要对一个人群中体的样本测量身高,这是一个一元随机变量;而要获得人的身高、体重分布情况,每一个样本就要测量身高、体重,这样组成一个二元随机向量。
很显然,随机向量中的每一个分量都是随机变量,那么对多元总体进行分析时,我们能否分开每一个随机变量分量呢?这是不合理的,因为不同的随机变量之间很可能存在着关联。比如身高、体重显然是存在的关联的,所以往往用BMI衡量人的身体质量情况,如果分开研究,就会打破它们之间的联系,失去一部分信息。
因此,多元统计其实是对多维随机向量的研究,而不是对分开的随机变量的研究。为了描述随机向量的性质,我们需要使用一定的概念来描述。要注意的是,以下出现的向量一般都是列向量。
一个总体中每一个个体具有
p
p
p个属性,它们或存在关联或不存在关联,这
p
p
p个属性分别用
p
p
p个随机变量总体
X
1
,
⋯
,
X
p
X_1,\cdots,X_p
X1,⋯,Xp来表示。从总体
X
=
(
X
1
,
⋯
,
X
p
)
′
X=(X_1,\cdots,X_p)'
X=(X1,⋯,Xp)′中抽取
n
n
n个样本,每一个样本记作
X
(
1
)
,
⋯
,
X
(
n
)
X_{(1)},\cdots,X_{(n)}
X(1),⋯,X(n)(一般在下标加括号与属性总体区分),这样,每一个样本还可以表示成
X
(
i
)
=
(
X
i
1
,
X
i
2
,
⋯
,
X
i
p
)
′
,
X_{(i)}=(X_{i1},X_{i2},\cdots,X_{ip})',
X(i)=(Xi1,Xi2,⋯,Xip)′,
将
n
n
n个样本纵向排列,就得到一个
n
×
p
n\times p
n×p矩阵,称为样本数据阵,如下:
X
=
[
x
11
x
12
⋯
x
1
p
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
x
n
1
x
n
2
⋯
x
n
p
]
=
[
X
(
1
)
′
X
(
2
)
′
⋮
X
(
n
)
′
]
=
d
e
f
(
X
1
,
⋯
,
X
p
)
.
X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&&\vdots\\ x_{n1}&x_{n2}&\cdots&x_{np} \end{bmatrix}=\begin{bmatrix} X_{(1)}'\\X_{(2)}'\\\vdots\\X_{(n)}' \end{bmatrix}\stackrel {\rm def}=(\mathcal X_1,\cdots,\mathcal X_p) .
X=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋯x1px2p⋮xnp⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡X(1)′X(2)′⋮X(n)′⎦⎥⎥⎥⎤=def(X1,⋯,Xp).
样本数据阵的相关概念如下有:
- 第 i i i行 X ( i ) ′ X_{(i)}' X(i)′:代表第 i i i个 p p p维样本,具有两重性。在观测前,它是 p p p维随机向量;在观测后,它是 p p p维向量。
- 第 j j j列 X j \mathcal X_j Xj:代表第 j j j个属性的 n n n个观测值,相当于将样本的每个属性分开研究,每一个构成一个样本容量为 n n n的样本。
2.随机向量的分布
对 n n n个样本进行研究,用到数理统计的知识,多元情况下也不例外。在一元的情形,数理统计是依赖于概率论,尤其是其中的几个重要分布;因此在进行多元统计之前,有必要对随机向量的分布进行讨论。随机向量的分布,指的是联合分布、边缘分布、条件分布等。
p
p
p维随机向量
X
X
X的联合分布是一个
p
p
p元函数
F
(
x
1
,
⋯
,
x
p
)
=
P
(
X
1
≤
x
1
,
⋯
,
X
p
≤
x
p
)
.
F(x_1,\cdots,x_p)={\rm P}(X_1\le x_1,\cdots,X_p\le x_p).
F(x1,⋯,xp)=P(X1≤x1,⋯,Xp≤xp).
类似一元的情况,如果有一个
p
p
p元非负函数,使得对一切
(
x
1
,
⋯
,
x
p
)
∈
R
p
(x_1,\cdots,x_p)\in \R^p
(x1,⋯,xp)∈Rp,都有
F
(
x
1
,
⋯
,
x
p
)
=
∫
−
∞
x
1
⋯
∫
−
∞
x
p
p
(
s
1
,
⋯
,
x
p
)
d
(
s
1
,
⋯
,
s
p
)
,
F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p}p(s_1,\cdots,x_p){\rm d}(s_1,\cdots,s_p),
F(x1,⋯,xp)=∫−∞x1⋯∫−∞xpp(s1,⋯,xp)d(s1,⋯,sp),
就称
p
(
x
1
,
⋯
,
x
p
)
p(x_1,\cdots,x_p)
p(x1,⋯,xp)是
X
X
X的联合概率密度。
如果我们只考虑随机变量的部分分量 ( X i 1 , ⋯ , X i m ) , 1 ≤ m < p (X_{i_1},\cdots,X_{i_m}),1\le m<p (Xi1,⋯,Xim),1≤m<p的分布,则部分分量的联合分布,称为 X X X的边缘分布。要求某几个分量的边缘分布,只需要将联合分布 F ( x 1 , ⋯ , x p ) F(x_1,\cdots,x_p) F(x1,⋯,xp)中不关心的那部分分量值取为 + ∞ +\infty +∞,剩下的就是边缘分布。
- 如二元总体 X = ( X 1 , X 2 ) X=(X_1,X_2) X=(X1,X2)的联合分布是 F ( x 1 , x 2 ) F(x_1,x_2) F(x1,x2),则 X 1 X_1 X1的边缘分布是 F ( x 1 , ∞ ) F(x_1,\infty) F(x1,∞), X 2 X_2 X2的边缘分布是 F ( ∞ , x 2 ) F(\infty,x_2) F(∞,x2)。
- 如果已知总体联合密度,要求边缘密度,则将无关部分进行积分。如二元总体 X = ( X 1 , X 2 ) X=(X_1,X_2) X=(X1,X2)的联合密度是 p ( x 1 , x 2 ) p(x_1,x_2) p(x1,x2),则 X 1 X_1 X1的边缘密度就是 ∫ − ∞ ∞ p ( x 1 , x 2 ) d x 2 \int_{-\infty}^\infty p(x_1,x_2){\rm d}x_2 ∫−∞∞p(x1,x2)dx2, X 2 X_2 X2的边缘密度就是 ∫ − ∞ ∞ p ( x 1 , x 2 ) d x 1 \int_{-\infty}^\infty p(x_1,x_2){\rm d}x_1 ∫−∞∞p(x1,x2)dx1。
条件分布指的是给定一部分分量时,另一部分分量的分布。假如 X = ( X ( 1 ) , X ( 2 ) ) X=(X^{(1)},X^{(2)}) X=(X(1),X(2)),这里 X ( 1 ) X^{(1)} X(1)是 r r r维随机向量, X ( 2 ) X^{(2)} X(2)是 p − r p-r p−r维随机向量,则给定 X ( 2 ) X^{(2)} X(2)时 X ( 1 ) X^{(1)} X(1)的条件分布是 F ( X ( 1 ) ∣ X ( 2 ) ) F(X^{(1)}|X^{(2)}) F(X(1)∣X(2))。
- 如果
X
X
X的联合密度是
p
(
x
(
1
)
,
x
(
2
)
)
p(x^{(1)},x^{(2)})
p(x(1),x(2)),则条件密度为
p ( x ( 1 ) ∣ x ( 2 ) ) = p ( x ( 1 ) , x ( 2 ) ) p ( x ( 2 ) ) . p(x^{(1)}|x^{(2)})=\frac{p(x^{(1)},x^{(2)})}{p(x^{(2)})}. p(x(1)∣x(2))=p(x(2))p(x(1),x(2)).
定义条件分布后,可以定义随机向量分量的独立性。如果 F ( x 1 , ⋯ , x p ) = F 1 ( x 1 ) ⋯ F p ( x p ) F(x_1,\cdots,x_p)=F_1(x_1)\cdots F_p(x_p) F(x1,⋯,xp)=F1(x1)⋯Fp(xp),这里 F 1 ( x ) , ⋯ , F p ( x ) F_1(x),\cdots,F_p(x) F1(x),⋯,Fp(x)是 X 1 , ⋯ , X p X_1,\cdots,X_p X1,⋯,Xp的边缘分布,则称 X 1 , ⋯ , X p X_1,\cdots,X_p X1,⋯,Xp相互独立。同理,如果 f ( x 1 , ⋯ , x p ) = f 1 ( x 1 ) ⋯ f p ( x p ) f(x_1,\cdots,x_p)=f_1(x_1)\cdots f_p(x_p) f(x1,⋯,xp)=f1(x1)⋯fp(xp),这里 f 1 ( x ) , ⋯ , f p ( x ) f_1(x),\cdots, f_p(x) f1(x),⋯,fp(x)是 X 1 , ⋯ , X p X_1,\cdots,X_p X1,⋯,Xp的边缘密度,也称 X 1 , ⋯ , X p X_1,\cdots,X_p X1,⋯,Xp相互独立。
以上分布的定义方式,均与一元非常类似,只要区分联合、边缘的区别即可。
3.随机向量数字特征
在一元总体中,我们定义过均值、方差等数字特征,在多元中也可以类似定义一系列数字特征,用来刻画分布的部分性质。不同的是,在多元统计中,我们还需要考虑一个随机向量内部的结构。
对于
X
=
(
X
1
,
⋯
,
X
p
)
X=(X_1,\cdots,X_p)
X=(X1,⋯,Xp),如果对每个分量
X
i
X_i
Xi都有
E
X
i
=
μ
i
{\rm E}X_i=\mu_i
EXi=μi存在,则定义随机向量的均值向量为
E
(
X
)
=
[
E
(
X
1
)
E
(
X
2
)
⋮
E
(
X
p
)
]
=
[
μ
1
μ
2
⋮
μ
p
]
.
{\rm E}(X)=\begin{bmatrix} {\rm E}(X_1)\\{\rm E}(X_2)\\\vdots\\{\rm E}(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1\\\mu_2\\\vdots\\\mu_p \end{bmatrix}.
E(X)=⎣⎢⎢⎢⎡E(X1)E(X2)⋮E(Xp)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡μ1μ2⋮μp⎦⎥⎥⎥⎤.
多元向量中,每一个分量的方差还有两个分量之间的协方差,可以用一个协方差矩阵来囊括。如果对任何
i
,
j
i,j
i,j,都有
C
o
v
(
X
i
,
X
j
)
=
E
(
X
i
−
μ
i
)
(
X
j
−
μ
j
)
=
σ
i
j
{\rm Cov}(X_i,X_j)={\rm E}(X_i-\mu_i)(X_j-\mu_j)=\sigma_{ij}
Cov(Xi,Xj)=E(Xi−μi)(Xj−μj)=σij存在,则定义协方差阵为
D
(
X
)
=
[
σ
11
σ
12
⋯
σ
1
p
σ
21
σ
22
⋯
σ
2
p
⋮
⋮
⋮
σ
p
1
σ
p
2
⋯
σ
p
p
]
=
(
σ
i
j
)
p
×
p
=
d
e
f
Σ
.
{\rm D}(X)=\begin{bmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp} \end{bmatrix}=(\sigma_{ij})_{p\times p}\stackrel {\rm def}=\Sigma.
D(X)=⎣⎢⎢⎢⎡σ11σ21⋮σp1σ12σ22⋮σp2⋯⋯⋯σ1pσ2p⋮σpp⎦⎥⎥⎥⎤=(σij)p×p=defΣ.
- 可以注意到,成立以下等式:
D ( X ) = E [ ( X − E ( X ) ) ( X − E ( X ) ) ′ ] . {\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))']. D(X)=E[(X−E(X))(X−E(X))′].
类似一元随机变量中由协方差定义相关系数的方式,我们可以定义相关系数阵。如果令
r
i
j
=
r
X
i
,
X
j
=
C
o
v
(
X
i
,
X
j
)
/
D
(
X
i
)
D
(
X
j
)
=
σ
i
j
/
σ
i
i
σ
j
j
r_{ij}=r_{X_i,X_j}={\rm Cov}(X_i,X_j)/\sqrt{{\rm D}(X_i){\rm D}(X_j)}=\sigma_{ij}/\sqrt{\sigma_{ii}\sigma_{jj}}
rij=rXi,Xj=Cov(Xi,Xj)/D(Xi)D(Xj)=σij/σiiσjj,那么定义相关系数阵为
R
=
[
r
11
r
12
⋯
r
1
p
r
21
r
22
⋯
r
2
p
⋮
⋮
⋮
r
p
1
r
p
2
⋯
r
p
p
]
=
(
r
i
j
)
p
×
p
.
R=\begin{bmatrix} r_{11}&r_{12}&\cdots&r_{1p}\\ r_{21}&r_{22}&\cdots&r_{2p}\\ \vdots&\vdots&&\vdots\\ r_{p1}&r_{p2}&\cdots &r_{pp} \end{bmatrix}=(r_{ij})_{p\times p}.
R=⎣⎢⎢⎢⎡r11r21⋮rp1r12r22⋮rp2⋯⋯⋯r1pr2p⋮rpp⎦⎥⎥⎥⎤=(rij)p×p.
- 如果记
V
1
/
2
=
d
i
a
g
(
σ
11
,
⋯
,
σ
p
p
)
V^{1/2}={\rm diag}(\sqrt{\sigma_{11}},\cdots,\sqrt{\sigma_{pp}})
V1/2=diag(σ11,⋯,σpp)为
X
X
X的标准差矩阵,就成立以下等式:
Σ = V 1 / 2 R V 1 / 2 , R = V − 1 / 2 Σ V − 1 / 2 . \Sigma=V^{1/2}RV^{1/2},\quad R=V^{-1/2}\Sigma V^{-1/2}. Σ=V1/2RV1/2,R=V−1/2ΣV−1/2.
对于两个总体 X , Y X,Y X,Y,分别是 p p p维和 q q q维向量,其协方差阵为 C O V ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ′ ] {\rm COV}(X,Y)={\rm E}[(X-{\rm E}(X))(Y-{\rm E}(Y))'] COV(X,Y)=E[(X−E(X))(Y−E(Y))′],如果 C O V ( X , Y ) = O p × q {\rm COV}(X,Y)=O_{p\times q} COV(X,Y)=Op×q,则称总体 X , Y X,Y X,Y不相关。
- 可以注意到,成立以下等式:
C O V ( X , Y ) = [ C O V ( Y , X ) ] ′ . {\rm COV}(X,Y)=[{\rm COV}(Y,X)]'. COV(X,Y)=[COV(Y,X)]′.
4.随机向量数字特征的性质
首先是随机向量的运算性质:
E
(
A
X
B
)
=
A
E
(
X
)
B
,
D
(
A
X
)
=
A
D
(
X
)
A
′
,
C
O
V
(
A
X
,
B
Y
)
=
A
C
O
V
(
X
,
Y
)
B
′
.
\begin{array}{l} {\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. \end{array}
E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′.
这里
A
,
B
A,B
A,B是常数矩阵(满足运算要求),
X
,
Y
X,Y
X,Y是随机向量。这些运算性质需要牢记,有很广泛的应用。
类比随机变量独立、不相关的关系,我们得出 C O V ( X , Y ) = O p × q {\rm COV}(X,Y)=O_{p\times q} COV(X,Y)=Op×q是 X , Y X,Y X,Y独立的必要不充分条件,即不相关不一定独立,但独立一定不相关。
关于随机向量的自协方差矩阵 Σ \Sigma Σ,又有一些独特的性质:
- 对于任何随机向量 X X X,其自协方差矩阵 Σ \Sigma Σ是非负定对角阵。
- Σ = L 2 \Sigma=L^2 Σ=L2,这里 L L L为非负定矩阵,当 Σ > 0 \Sigma>0 Σ>0时称为 Σ \Sigma Σ的平方根矩阵。只要注意到非负定对角阵可正交对角化即可。
- 如果 Σ \Sigma Σ的特征值是 λ 1 , ⋯ , λ p \lambda_1,\cdots,\lambda_p λ1,⋯,λp,则由正定性,所有特征值 ≥ 0 \ge 0 ≥0,那么 Σ = Γ ( λ 1 , ⋯ , λ p ) Γ ′ \Sigma=\Gamma(\lambda_1,\cdots,\lambda_p)\Gamma' Σ=Γ(λ1,⋯,λp)Γ′,这里 Γ \Gamma Γ是正交矩阵。所以令 A = Γ ( λ 1 , ⋯ , λ p ) A=\Gamma(\sqrt\lambda_1,\cdots,\sqrt\lambda_p) A=Γ(λ1,⋯,λp),则 Σ = A A ′ \Sigma=AA' Σ=AA′。
总结回顾
-
样本数据阵,是将 n n n个 p p p维向量(即样本)按列排构成的矩阵。矩阵中每一列代表一个样本的观测值,每一行代表一个属性维度。
-
随机向量具有联合分布、边缘分布和条件分布,如果是连续型随机向量,则还有联合密度、边缘密度和条件密度。
-
由条件分布、条件密度刻画了随机向量分量间的独立性,当联合分布(密度)可拆分为边缘分布(密度)的乘积时,代表分量独立。
-
随机向量具有均值向量 E ( X ) {\rm E}(X) E(X)、自协方差矩阵 D ( X ) {\rm D}(X) D(X)、自相关矩阵 R R R、标准差对角阵 V 1 / 2 V^{1/2} V1/2等数字特征,刻画两个随机向量的相关程度用协方差矩阵。如果协方差矩阵为0矩阵,则两个随机向量不相关。
-
随机向量的数字特征之间存在以下联系:
D ( X ) = E [ ( X − E ( X ) ) ( X − E ( X ) ) ′ ] , D ( X ) = V 1 / 2 R V 1 / 2 , R = V − 1 / 2 D ( X ) V − 1 / 2 , C O V ( X , Y ) = [ C O V ( Y , X ) ] ′ . {\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))'],\\ {\rm D}(X)=V^{1/2}RV^{1/2},R=V^{-1/2}{\rm D}(X)V^{-1/2},\\ {\rm COV}(X,Y)=[{\rm COV}(Y,X)]'. D(X)=E[(X−E(X))(X−E(X))′],D(X)=V1/2RV1/2,R=V−1/2D(X)V−1/2,COV(X,Y)=[COV(Y,X)]′. -
有以下计算性质是需要记忆的:
E ( A X B ) = A E ( X ) B , D ( A X ) = A D ( X ) A ′ , C O V ( A X , B Y ) = A C O V ( X , Y ) B ′ . {\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. E(AXB)=AE(X)B,D(AX)=AD(X)A′,COV(AX,BY)=ACOV(X,Y)B′. -
随机向量的协方差矩阵 Σ \Sigma Σ是非负定对称阵,可以正交分解为 Γ Λ Γ ′ \Gamma \Lambda\Gamma' ΓΛΓ′,这里 Γ \Gamma Γ是正交矩阵, Λ \Lambda Λ是特征值对角阵。如果 A = Γ Λ 1 / 2 A=\Gamma \Lambda^{1/2} A=ΓΛ1/2,则 Σ = A A ′ \Sigma=AA' Σ=AA′;如果 L = Γ Λ 1 / 2 Γ ′ L=\Gamma \Lambda^{1/2}\Gamma' L=ΓΛ1/2Γ′,则 Σ = L 2 \Sigma=L^2 Σ=L2,当 Σ > 0 \Sigma>0 Σ>0时 L L L也是正定的,称为 Σ \Sigma Σ的平方根矩阵。