【多元统计分析】01.多元统计的基础

本文介绍了多元统计的基础概念,包括样本数据阵的构造、随机向量的分布(联合分布、边缘分布和条件分布)、数字特征(均值向量、协方差矩阵和相关系数阵)。重点阐述了随机向量的独立性和不相关性的区别,并探讨了数字特征之间的关系及其运算性质。
摘要由CSDN通过智能技术生成

一、多元统计基础

1.基本定义与样本数据阵

多元统计与一元统计的最大不同,就在于一元统计的样本全部来自一元总体,而多元总体的样本来自多元总体,用多个随机变量刻画它的多个维度。比如,要获得人的身高分布情况,只要对一个人群中体的样本测量身高,这是一个一元随机变量;而要获得人的身高、体重分布情况,每一个样本就要测量身高、体重,这样组成一个二元随机向量。

很显然,随机向量中的每一个分量都是随机变量,那么对多元总体进行分析时,我们能否分开每一个随机变量分量呢?这是不合理的,因为不同的随机变量之间很可能存在着关联。比如身高、体重显然是存在的关联的,所以往往用BMI衡量人的身体质量情况,如果分开研究,就会打破它们之间的联系,失去一部分信息。

因此,多元统计其实是对多维随机向量的研究,而不是对分开的随机变量的研究。为了描述随机向量的性质,我们需要使用一定的概念来描述。要注意的是,以下出现的向量一般都是列向量

一个总体中每一个个体具有 p p p个属性,它们或存在关联或不存在关联,这 p p p个属性分别用 p p p个随机变量总体 X 1 , ⋯   , X p X_1,\cdots,X_p X1,,Xp来表示。从总体 X = ( X 1 , ⋯   , X p ) ′ X=(X_1,\cdots,X_p)' X=(X1,,Xp)中抽取 n n n个样本,每一个样本记作 X ( 1 ) , ⋯   , X ( n ) X_{(1)},\cdots,X_{(n)} X(1),,X(n)(一般在下标加括号与属性总体区分),这样,每一个样本还可以表示成
X ( i ) = ( X i 1 , X i 2 , ⋯   , X i p ) ′ , X_{(i)}=(X_{i1},X_{i2},\cdots,X_{ip})', X(i)=(Xi1,Xi2,,Xip),
n n n个样本纵向排列,就得到一个 n × p n\times p n×p矩阵,称为样本数据阵,如下:
X = [ x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋮ ⋮ x n 1 x n 2 ⋯ x n p ] = [ X ( 1 ) ′ X ( 2 ) ′ ⋮ X ( n ) ′ ] = d e f ( X 1 , ⋯   , X p ) . X=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&&\vdots\\ x_{n1}&x_{n2}&\cdots&x_{np} \end{bmatrix}=\begin{bmatrix} X_{(1)}'\\X_{(2)}'\\\vdots\\X_{(n)}' \end{bmatrix}\stackrel {\rm def}=(\mathcal X_1,\cdots,\mathcal X_p) . X=x11x21xn1x12x22xn2x1px2pxnp=X(1)X(2)X(n)=def(X1,,Xp).
样本数据阵的相关概念如下有:

  • i i i X ( i ) ′ X_{(i)}' X(i):代表第 i i i p p p维样本,具有两重性。在观测前,它是 p p p维随机向量;在观测后,它是 p p p维向量。
  • j j j X j \mathcal X_j Xj:代表第 j j j个属性的 n n n个观测值,相当于将样本的每个属性分开研究,每一个构成一个样本容量为 n n n的样本。

2.随机向量的分布

n n n个样本进行研究,用到数理统计的知识,多元情况下也不例外。在一元的情形,数理统计是依赖于概率论,尤其是其中的几个重要分布;因此在进行多元统计之前,有必要对随机向量的分布进行讨论。随机向量的分布,指的是联合分布、边缘分布、条件分布等。

p p p维随机向量 X X X联合分布是一个 p p p元函数
F ( x 1 , ⋯   , x p ) = P ( X 1 ≤ x 1 , ⋯   , X p ≤ x p ) . F(x_1,\cdots,x_p)={\rm P}(X_1\le x_1,\cdots,X_p\le x_p). F(x1,,xp)=P(X1x1,,Xpxp).
类似一元的情况,如果有一个 p p p元非负函数,使得对一切 ( x 1 , ⋯   , x p ) ∈ R p (x_1,\cdots,x_p)\in \R^p (x1,,xp)Rp,都有
F ( x 1 , ⋯   , x p ) = ∫ − ∞ x 1 ⋯ ∫ − ∞ x p p ( s 1 , ⋯   , x p ) d ( s 1 , ⋯   , s p ) , F(x_1,\cdots,x_p)=\int_{-\infty}^{x_1}\cdots\int_{-\infty}^{x_p}p(s_1,\cdots,x_p){\rm d}(s_1,\cdots,s_p), F(x1,,xp)=x1xpp(s1,,xp)d(s1,,sp),
就称 p ( x 1 , ⋯   , x p ) p(x_1,\cdots,x_p) p(x1,,xp) X X X的联合概率密度。

如果我们只考虑随机变量的部分分量 ( X i 1 , ⋯   , X i m ) , 1 ≤ m < p (X_{i_1},\cdots,X_{i_m}),1\le m<p (Xi1,,Xim),1m<p的分布,则部分分量的联合分布,称为 X X X边缘分布。要求某几个分量的边缘分布,只需要将联合分布 F ( x 1 , ⋯   , x p ) F(x_1,\cdots,x_p) F(x1,,xp)中不关心的那部分分量值取为 + ∞ +\infty +,剩下的就是边缘分布。

  • 如二元总体 X = ( X 1 , X 2 ) X=(X_1,X_2) X=(X1,X2)的联合分布是 F ( x 1 , x 2 ) F(x_1,x_2) F(x1,x2),则 X 1 X_1 X1的边缘分布是 F ( x 1 , ∞ ) F(x_1,\infty) F(x1,) X 2 X_2 X2的边缘分布是 F ( ∞ , x 2 ) F(\infty,x_2) F(,x2)
  • 如果已知总体联合密度,要求边缘密度,则将无关部分进行积分。如二元总体 X = ( X 1 , X 2 ) X=(X_1,X_2) X=(X1,X2)的联合密度是 p ( x 1 , x 2 ) p(x_1,x_2) p(x1,x2),则 X 1 X_1 X1的边缘密度就是 ∫ − ∞ ∞ p ( x 1 , x 2 ) d x 2 \int_{-\infty}^\infty p(x_1,x_2){\rm d}x_2 p(x1,x2)dx2 X 2 X_2 X2的边缘密度就是 ∫ − ∞ ∞ p ( x 1 , x 2 ) d x 1 \int_{-\infty}^\infty p(x_1,x_2){\rm d}x_1 p(x1,x2)dx1

条件分布指的是给定一部分分量时,另一部分分量的分布。假如 X = ( X ( 1 ) , X ( 2 ) ) X=(X^{(1)},X^{(2)}) X=(X(1),X(2)),这里 X ( 1 ) X^{(1)} X(1) r r r维随机向量, X ( 2 ) X^{(2)} X(2) p − r p-r pr维随机向量,则给定 X ( 2 ) X^{(2)} X(2) X ( 1 ) X^{(1)} X(1)的条件分布是 F ( X ( 1 ) ∣ X ( 2 ) ) F(X^{(1)}|X^{(2)}) F(X(1)X(2))

  • 如果 X X X的联合密度是 p ( x ( 1 ) , x ( 2 ) ) p(x^{(1)},x^{(2)}) p(x(1),x(2)),则条件密度为
    p ( x ( 1 ) ∣ x ( 2 ) ) = p ( x ( 1 ) , x ( 2 ) ) p ( x ( 2 ) ) . p(x^{(1)}|x^{(2)})=\frac{p(x^{(1)},x^{(2)})}{p(x^{(2)})}. p(x(1)x(2))=p(x(2))p(x(1),x(2)).

定义条件分布后,可以定义随机向量分量的独立性。如果 F ( x 1 , ⋯   , x p ) = F 1 ( x 1 ) ⋯ F p ( x p ) F(x_1,\cdots,x_p)=F_1(x_1)\cdots F_p(x_p) F(x1,,xp)=F1(x1)Fp(xp),这里 F 1 ( x ) , ⋯   , F p ( x ) F_1(x),\cdots,F_p(x) F1(x),,Fp(x) X 1 , ⋯   , X p X_1,\cdots,X_p X1,,Xp的边缘分布,则称 X 1 , ⋯   , X p X_1,\cdots,X_p X1,,Xp相互独立。同理,如果 f ( x 1 , ⋯   , x p ) = f 1 ( x 1 ) ⋯ f p ( x p ) f(x_1,\cdots,x_p)=f_1(x_1)\cdots f_p(x_p) f(x1,,xp)=f1(x1)fp(xp),这里 f 1 ( x ) , ⋯   , f p ( x ) f_1(x),\cdots, f_p(x) f1(x),,fp(x) X 1 , ⋯   , X p X_1,\cdots,X_p X1,,Xp的边缘密度,也称 X 1 , ⋯   , X p X_1,\cdots,X_p X1,,Xp相互独立。

以上分布的定义方式,均与一元非常类似,只要区分联合、边缘的区别即可。

3.随机向量数字特征

在一元总体中,我们定义过均值、方差等数字特征,在多元中也可以类似定义一系列数字特征,用来刻画分布的部分性质。不同的是,在多元统计中,我们还需要考虑一个随机向量内部的结构。

对于 X = ( X 1 , ⋯   , X p ) X=(X_1,\cdots,X_p) X=(X1,,Xp),如果对每个分量 X i X_i Xi都有 E X i = μ i {\rm E}X_i=\mu_i EXi=μi存在,则定义随机向量的均值向量为
E ( X ) = [ E ( X 1 ) E ( X 2 ) ⋮ E ( X p ) ] = [ μ 1 μ 2 ⋮ μ p ] . {\rm E}(X)=\begin{bmatrix} {\rm E}(X_1)\\{\rm E}(X_2)\\\vdots\\{\rm E}(X_p) \end{bmatrix}=\begin{bmatrix} \mu_1\\\mu_2\\\vdots\\\mu_p \end{bmatrix}. E(X)=E(X1)E(X2)E(Xp)=μ1μ2μp.
多元向量中,每一个分量的方差还有两个分量之间的协方差,可以用一个协方差矩阵来囊括。如果对任何 i , j i,j i,j,都有 C o v ( X i , X j ) = E ( X i − μ i ) ( X j − μ j ) = σ i j {\rm Cov}(X_i,X_j)={\rm E}(X_i-\mu_i)(X_j-\mu_j)=\sigma_{ij} Cov(Xi,Xj)=E(Xiμi)(Xjμj)=σij存在,则定义协方差阵为
D ( X ) = [ σ 11 σ 12 ⋯ σ 1 p σ 21 σ 22 ⋯ σ 2 p ⋮ ⋮ ⋮ σ p 1 σ p 2 ⋯ σ p p ] = ( σ i j ) p × p = d e f Σ . {\rm D}(X)=\begin{bmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp} \end{bmatrix}=(\sigma_{ij})_{p\times p}\stackrel {\rm def}=\Sigma. D(X)=σ11σ21σp1σ12σ22σp2σ1pσ2pσpp=(σij)p×p=defΣ.

  • 可以注意到,成立以下等式:
    D ( X ) = E [ ( X − E ( X ) ) ( X − E ( X ) ) ′ ] . {\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))']. D(X)=E[(XE(X))(XE(X))].

类似一元随机变量中由协方差定义相关系数的方式,我们可以定义相关系数阵。如果令 r i j = r X i , X j = C o v ( X i , X j ) / D ( X i ) D ( X j ) = σ i j / σ i i σ j j r_{ij}=r_{X_i,X_j}={\rm Cov}(X_i,X_j)/\sqrt{{\rm D}(X_i){\rm D}(X_j)}=\sigma_{ij}/\sqrt{\sigma_{ii}\sigma_{jj}} rij=rXi,Xj=Cov(Xi,Xj)/D(Xi)D(Xj) =σij/σiiσjj ,那么定义相关系数阵为
R = [ r 11 r 12 ⋯ r 1 p r 21 r 22 ⋯ r 2 p ⋮ ⋮ ⋮ r p 1 r p 2 ⋯ r p p ] = ( r i j ) p × p . R=\begin{bmatrix} r_{11}&r_{12}&\cdots&r_{1p}\\ r_{21}&r_{22}&\cdots&r_{2p}\\ \vdots&\vdots&&\vdots\\ r_{p1}&r_{p2}&\cdots &r_{pp} \end{bmatrix}=(r_{ij})_{p\times p}. R=r11r21rp1r12r22rp2r1pr2prpp=(rij)p×p.

  • 如果记 V 1 / 2 = d i a g ( σ 11 , ⋯   , σ p p ) V^{1/2}={\rm diag}(\sqrt{\sigma_{11}},\cdots,\sqrt{\sigma_{pp}}) V1/2=diag(σ11 ,,σpp ) X X X的标准差矩阵,就成立以下等式:
    Σ = V 1 / 2 R V 1 / 2 , R = V − 1 / 2 Σ V − 1 / 2 . \Sigma=V^{1/2}RV^{1/2},\quad R=V^{-1/2}\Sigma V^{-1/2}. Σ=V1/2RV1/2,R=V1/2ΣV1/2.

对于两个总体 X , Y X,Y X,Y,分别是 p p p维和 q q q维向量,其协方差阵为 C O V ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ′ ] {\rm COV}(X,Y)={\rm E}[(X-{\rm E}(X))(Y-{\rm E}(Y))'] COV(X,Y)=E[(XE(X))(YE(Y))],如果 C O V ( X , Y ) = O p × q {\rm COV}(X,Y)=O_{p\times q} COV(X,Y)=Op×q,则称总体 X , Y X,Y X,Y不相关。

  • 可以注意到,成立以下等式:
    C O V ( X , Y ) = [ C O V ( Y , X ) ] ′ . {\rm COV}(X,Y)=[{\rm COV}(Y,X)]'. COV(X,Y)=[COV(Y,X)].

4.随机向量数字特征的性质

首先是随机向量的运算性质:
E ( A X B ) = A E ( X ) B , D ( A X ) = A D ( X ) A ′ , C O V ( A X , B Y ) = A C O V ( X , Y ) B ′ . \begin{array}{l} {\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. \end{array} E(AXB)=AE(X)B,D(AX)=AD(X)A,COV(AX,BY)=ACOV(X,Y)B.
这里 A , B A,B A,B是常数矩阵(满足运算要求), X , Y X,Y X,Y是随机向量。这些运算性质需要牢记,有很广泛的应用。

类比随机变量独立、不相关的关系,我们得出 C O V ( X , Y ) = O p × q {\rm COV}(X,Y)=O_{p\times q} COV(X,Y)=Op×q X , Y X,Y X,Y独立的必要不充分条件,即不相关不一定独立,但独立一定不相关。

关于随机向量的自协方差矩阵 Σ \Sigma Σ,又有一些独特的性质:

  • 对于任何随机向量 X X X,其自协方差矩阵 Σ \Sigma Σ是非负定对角阵。
  • Σ = L 2 \Sigma=L^2 Σ=L2,这里 L L L为非负定矩阵,当 Σ > 0 \Sigma>0 Σ>0时称为 Σ \Sigma Σ的平方根矩阵。只要注意到非负定对角阵可正交对角化即可。
  • 如果 Σ \Sigma Σ的特征值是 λ 1 , ⋯   , λ p \lambda_1,\cdots,\lambda_p λ1,,λp,则由正定性,所有特征值 ≥ 0 \ge 0 0,那么 Σ = Γ ( λ 1 , ⋯   , λ p ) Γ ′ \Sigma=\Gamma(\lambda_1,\cdots,\lambda_p)\Gamma' Σ=Γ(λ1,,λp)Γ,这里 Γ \Gamma Γ是正交矩阵。所以令 A = Γ ( λ 1 , ⋯   , λ p ) A=\Gamma(\sqrt\lambda_1,\cdots,\sqrt\lambda_p) A=Γ(λ 1,,λ p),则 Σ = A A ′ \Sigma=AA' Σ=AA

总结回顾

  1. 样本数据阵,是将 n n n p p p维向量(即样本)按列排构成的矩阵。矩阵中每一列代表一个样本的观测值,每一行代表一个属性维度。

  2. 随机向量具有联合分布、边缘分布和条件分布,如果是连续型随机向量,则还有联合密度、边缘密度和条件密度。

  3. 由条件分布、条件密度刻画了随机向量分量间的独立性,当联合分布(密度)可拆分为边缘分布(密度)的乘积时,代表分量独立。

  4. 随机向量具有均值向量 E ( X ) {\rm E}(X) E(X)、自协方差矩阵 D ( X ) {\rm D}(X) D(X)、自相关矩阵 R R R、标准差对角阵 V 1 / 2 V^{1/2} V1/2等数字特征,刻画两个随机向量的相关程度用协方差矩阵。如果协方差矩阵为0矩阵,则两个随机向量不相关。

  5. 随机向量的数字特征之间存在以下联系:
    D ( X ) = E [ ( X − E ( X ) ) ( X − E ( X ) ) ′ ] , D ( X ) = V 1 / 2 R V 1 / 2 , R = V − 1 / 2 D ( X ) V − 1 / 2 , C O V ( X , Y ) = [ C O V ( Y , X ) ] ′ . {\rm D}(X)={\rm E}[(X-{\rm E}(X))(X-{\rm E}(X))'],\\ {\rm D}(X)=V^{1/2}RV^{1/2},R=V^{-1/2}{\rm D}(X)V^{-1/2},\\ {\rm COV}(X,Y)=[{\rm COV}(Y,X)]'. D(X)=E[(XE(X))(XE(X))],D(X)=V1/2RV1/2,R=V1/2D(X)V1/2,COV(X,Y)=[COV(Y,X)].

  6. 有以下计算性质是需要记忆的:
    E ( A X B ) = A E ( X ) B , D ( A X ) = A D ( X ) A ′ , C O V ( A X , B Y ) = A C O V ( X , Y ) B ′ . {\rm E}(AXB)=A{\rm E}(X)B,\\ {\rm D}(AX)=A{\rm D}(X)A',\\ {\rm COV}(AX,BY)=A{\rm COV}(X,Y)B'. E(AXB)=AE(X)B,D(AX)=AD(X)A,COV(AX,BY)=ACOV(X,Y)B.

  7. 随机向量的协方差矩阵 Σ \Sigma Σ是非负定对称阵,可以正交分解为 Γ Λ Γ ′ \Gamma \Lambda\Gamma' ΓΛΓ,这里 Γ \Gamma Γ是正交矩阵, Λ \Lambda Λ是特征值对角阵。如果 A = Γ Λ 1 / 2 A=\Gamma \Lambda^{1/2} A=ΓΛ1/2,则 Σ = A A ′ \Sigma=AA' Σ=AA;如果 L = Γ Λ 1 / 2 Γ ′ L=\Gamma \Lambda^{1/2}\Gamma' L=ΓΛ1/2Γ,则 Σ = L 2 \Sigma=L^2 Σ=L2,当 Σ > 0 \Sigma>0 Σ>0 L L L也是正定的,称为 Σ \Sigma Σ的平方根矩阵。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值