【多元统计分析】04.多元正态分布的参数估计

四、多元正态分布的参数估计

1.多元正态分布的估计量

对于多元正态分布 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ),其参数只有两个——均值向量 μ \mu μ与自协方差矩阵 Σ \Sigma Σ,要对其进行估计,就要从总体中抽取简单随机样本。记抽取样本的容量为 n n n,每一个样本分别是 X ( α ) = ( x α 1 , ⋯   , x α p ) X_{(\alpha)}=(x_{\alpha1},\cdots,x_{\alpha p}) X(α)=(xα1,,xαp),将样本纵向排列,得到样本数据阵
X = [ x 11 ⋯ x 1 p ⋮ ⋮ x n 1 ⋯ x n p ] . X=\begin{bmatrix} x_{11} & \cdots & x_{1p} \\ \vdots & & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix}. X=x11xn1x1pxnp.
从样本数据阵出发,可以获得以下统计量:

  1. 样本均值 X ˉ \bar X Xˉ,这是对每个维度求均值,得到的一个 p p p维向量
    X ˉ = 1 n ∑ α = 1 n X ( α ) = ( x ˉ 1 , ⋯   , x ˉ p ) ′ = 1 n X ′ 1 n . \bar X=\frac 1n\sum_{\alpha=1}^n X_{(\alpha)}=(\bar x_1,\cdots ,\bar x_p)'=\frac 1nX'\boldsymbol 1_n. Xˉ=n1α=1nX(α)=(xˉ1,,xˉp)=n1X1n.
    这里 x ˉ i \bar x_i xˉi是对第 i i i个分量的平均,即
    x ˉ i = 1 n ∑ α = 1 n x α i . \bar x_i=\frac 1n\sum_{\alpha=1}^n x_{\alpha i}. xˉi=n1α=1nxαi.

  2. 样本离差阵 A A A,可以类比一维随机变量中的 ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i-\bar x)^2 i=1n(xixˉ)2,即
    A = ∑ α = 1 n ( X ( α ) − X ˉ ) ( X ( α ) − X ˉ ) ′ A=\sum_{\alpha=1}^n(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)' A=α=1n(X(α)Xˉ)(X(α)Xˉ)
    这样, A A A是一个 p × p p\times p p×p对角阵,它的第 ( i , j ) (i,j) (i,j)元,其实就是
    a i j = ∑ α = 1 n ( x α i − x ˉ i ) ( x α j − x ˉ j ) . a_{ij}=\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)(x_{\alpha j}-\bar x_j). aij=α=1n(xαixˉi)(xαjxˉj).
    由此,还可以得到
    A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . A=X'X-n\bar X\bar X'=X'\left[I_n-\frac 1n\boldsymbol 1_n\boldsymbol 1_n' \right] X. A=XXnXˉXˉ=X[Inn11n1n]X.
    这个式子用来计算离差阵更为方便。

  3. 样本协方差阵 S S S,可以类比一维随机变量中的样本方差,即
    S = 1 n − 1 A , S=\frac 1{n-1}A, S=n11A,
    ( i , i ) (i,i) (i,i)元是变量 X i X_i Xi的样本方差,即
    s i i = 1 n − 1 ∑ α = 1 n ( x α i − x ˉ i ) 2 . s_{ii}=\frac 1{n-1}\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)^2. sii=n11α=1n(xαixˉi)2.
    类似一维中样本方差的定义,也有
    S ∗ = 1 n ∑ α = 1 n ( x α i − x ˉ i ) 2 . S^*=\frac 1n\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)^2. S=n1α=1n(xαixˉi)2.

  4. 样本相关阵 R R R,自然是由样本相关系数 r i j r_{ij} rij构成的 p × p p\times p p×p矩阵,即
    R = s i j s i i s j j = a i j a i i a j j . R=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}a_{jj}}}. R=siisjj sij=aiiajj aij.

有了这些统计量,我们就可以对总体的参数 μ , Σ \mu,\Sigma μ,Σ进行估计,使用的方法是最大似然估计。

2.最大似然估计

最大似然估计指的是,以使获得样本的出现几率最大的那组参数估计量,作为参数的点估计量。与一元情形类似,可以建立似然函数的概念。使用拉直运算,对 V e c ( X ′ ) {\rm Vec}(X') Vec(X)的密度函数建立似然函数,称为样本 X ( i ) X_{(i)} X(i)的似然函数(对数似然函数)。
L ( μ , Σ ) = ∏ α = 1 n 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 exp ⁡ [ − 1 2 ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) ] = 1 ( 2 π ) n p / 2 ∣ Σ ∣ n / 2 exp ⁡ [ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) ] l ( μ , Σ ) = − n p 2 ln ⁡ ( 2 π ) + n 2 ln ⁡ ∣ Σ − 1 ∣ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) \begin{aligned} L(\mu,\Sigma)=&\prod_{\alpha=1}^n \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac12(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right] \\ =&\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right]\\ l(\mu,\Sigma)=&-\frac{np}2\ln(2\pi)+\frac n2\ln |\Sigma^{-1}|-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \end{aligned} L(μ,Σ)==l(μ,Σ)=α=1n(2π)p/2Σ1/21exp[21(x(α)μ)Σ1(x(α)μ)](2π)np/2Σn/21exp[21α=1n(x(α)μ)Σ1(x(α)μ)]2npln(2π)+2nlnΣ121α=1n(x(α)μ)Σ1(x(α)μ)

要求其极大似然估计,需要对矩阵 Σ \Sigma Σ,向量 μ \mu μ求导(参见矩阵微商),得
d l ( μ , Σ ) d μ = 1 2 ∑ α = 1 n ( Σ − 1 + ( Σ − 1 ) ′ ) ( x ( α ) − μ ) = Σ − 1 ( ∑ α = 1 n ( x ( α ) − μ ) ) = n Σ − 1 ( X ˉ − μ ) . d l ( μ , Σ ) d Σ − 1 = − n 2 Σ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ( x ( α ) − μ ) ′ = − 1 2 ( n Σ − A ) . \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\mu}=\frac12\sum_{\alpha=1}^n(\Sigma^{-1}+(\Sigma^{-1})')(x_{(\alpha)}-\mu)=\Sigma^{-1}(\sum_{\alpha=1}^n(x_{(\alpha)}-\mu))=n\Sigma^{-1}(\bar X-\mu).\\ \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\Sigma^{-1}}=-\frac n2\Sigma-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)(x_{(\alpha)}-\mu)'=-\frac12(n\Sigma-A). dμdl(μ,Σ)=21α=1n(Σ1+(Σ1))(x(α)μ)=Σ1(α=1n(x(α)μ))=nΣ1(Xˉμ).dΣ1dl(μ,Σ)=2nΣ21α=1n(x(α)μ)(x(α)μ)=21(nΣA).
所以
μ ^ = X ˉ , Σ ^ = A n . \hat \mu=\bar X,\quad \hat\Sigma = \frac An. μ^=Xˉ,Σ^=nA.

用到的矩阵微商结论:对于对称阵 A A A与列向量 x x x,有
d ln ⁡ ∣ A ∣ d A = A − 1 , d x ′ A x d A = x x ′ , d x ′ A x d x = ( A + A ′ ) x . \frac{{\rm d}\ln |A|}{{\rm d}A}=A^{-1},\\ \frac{{\rm d}x'Ax}{{\rm d}A}=xx',\\ \frac{{\rm d}x'Ax}{{\rm d}x}=(A+A')x. dAdlnA=A1,dAdxAx=xx,dxdxAx=(A+A)x.

如果在已知 μ = μ 0 \mu=\mu_0 μ=μ0的情况下,依照以上过程,就可以得到
Σ ^ = 1 n ∑ α = 1 n ( x ( α ) − μ 0 ) ( x ( α ) − μ 0 ) ′ . \hat \Sigma=\frac{1}{n}\sum_{\alpha=1}^n(x_{(\alpha)}-\mu_0)(x_{(\alpha)}-\mu_0)'. Σ^=n1α=1n(x(α)μ0)(x(α)μ0).
所以,我们要找到 ( μ , Σ ) (\mu,\Sigma) (μ,Σ)的估计,就需要计算 ( X ˉ , A ) (\bar X,A) (Xˉ,A),接下来对它们进行性质讨论。

3.最大似然估计的性质

( X ˉ , A ) (\bar X,A) (Xˉ,A)的分布具有类似一元统计中 X ˉ \bar X Xˉ S 2 S^2 S2的性质。

定理:设 X ˉ \bar X Xˉ A A A分别是 p p p元正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的样本均值向量和样本离差阵,则有

  1. X ˉ ∼ N p ( μ , 1 n Σ ) \bar X\sim N_p(\mu,\frac1n\Sigma) XˉNp(μ,n1Σ)
  2. A = d ∑ t = 1 n Z t Z t ′ A\stackrel {\rm d}=\sum\limits_{t=1}^n Z_tZ_t' A=dt=1nZtZt,其中 Z 1 , ⋯   , Z n − 1 Z_1,\cdots,Z_{n-1} Z1,,Zn1独立同 N p ( 0 , Σ ) N_p(0,\Sigma) Np(0,Σ)分布;
  3. X ˉ \bar X Xˉ A A A相互独立;
  4. P { A > 0 } = 1 ⇔ n > p {\rm P}\{A>0\}=1\Leftrightarrow n>p P{A>0}=1n>p

前三个性质的证明方式也与一元情况类似,设 X X X为从多元正态总体中抽取的 n × p n\times p n×p样本数据阵, Γ \Gamma Γ n n n正交阵,形式如同
Γ = [ r 11 ⋯ r 1 n ⋮ ⋮ r ( n − 1 ) 1 ⋯ r ( n − 1 ) n 1 / n ⋯ 1 / n ] = ( r i j ) n × n . \Gamma=\begin{bmatrix} r_{11} & \cdots & r_{1n} \\ \vdots & & \vdots \\ r_{(n-1)1} & \cdots & r_{(n-1)n} \\ 1/\sqrt n & \cdots & 1/\sqrt n \end{bmatrix}=(r_{ij})_{n\times n}. Γ=r11r(n1)11/n r1nr(n1)n1/n =(rij)n×n.

Z = [ Z 1 ′ ⋮ Z n ′ ] = Γ [ X ( 1 ) ′ ⋮ X ( n ) ′ ] = Γ X . Z=\begin{bmatrix} Z_1' \\ \vdots \\ Z_n' \end{bmatrix} = \Gamma\begin{bmatrix} X_{(1)}' \\ \vdots \\ X_{(n)}' \end{bmatrix}=\Gamma X. Z=Z1Zn=ΓX(1)X(n)=ΓX.
Z i ′ = ( r i 1 , ⋯ r i n ) X Z_i'=(r_{i1},\cdots r_{in})X Zi=(ri1,rin)X
Z i = ( X ( 1 ) , ⋯   , X ( n ) ) [ r i 1 ⋮ r i n ] , i = 1 , ⋯   , n . Z_i=(X_{(1)},\cdots,X_{(n)})\begin{bmatrix} r_{i1} \\ \vdots \\ r_{in} \end{bmatrix},\quad i=1,\cdots,n. Zi=(X(1),,X(n))ri1rin,i=1,,n.
因为 Z i Z_i Zi X ( 1 ) , ⋯   , X ( n ) X_{(1)},\cdots,X_{(n)} X(1),,X(n)的线性组合,所以 Z i Z_i Zi也是 p p p维正态向量,且
E Z i = ∑ α = 1 n r i α E ( X ( α ) ) = { n ∑ α = 1 n r i α r n α μ = 0 , t ≠ n ; ∑ α = 1 n 1 n μ = n μ , t = n . C o v ( Z α , Z β ) = ∑ i = 1 n r α i r β i Σ = { O , α ≠ β ; Σ , α = β . {\rm E}Z_i=\sum_{\alpha=1}^n r_{i\alpha}{\rm E}(X_{(\alpha)})=\left\{ \begin{array}l \sqrt{n}\sum\limits_{\alpha=1}^n r_{i\alpha}r_{n\alpha}\mu=0,&t\ne n;\\ \sum\limits_{\alpha=1}^n \frac 1{\sqrt n}\mu=\sqrt n \mu,&t=n. \end{array} \right.\\ {\rm Cov}(Z_\alpha,Z_{\beta})=\sum_{i=1}^nr_{\alpha i}r_{\beta i}\Sigma=\left\{ \begin{array}l O,&\alpha\ne \beta;\\ \Sigma,&\alpha=\beta. \end{array} \right. EZi=α=1nriαE(X(α))=n α=1nriαrnαμ=0,α=1nn 1μ=n μ,t=n;t=n.Cov(Zα,Zβ)=i=1nrαirβiΣ={O,Σ,α=β;α=β.
而显然 Z n = n X ˉ Z_n=\sqrt n\bar X Zn=n Xˉ,且 Z n ∼ N p ( n μ , Σ ) Z_n\sim N_p(\sqrt n\mu,\Sigma) ZnNp(n μ,Σ),所以 X ˉ ∼ N p ( μ , Σ / n ) \bar X\sim N_p(\mu,\Sigma/n) XˉNp(μ,Σ/n)。而
∑ α = 1 n Z α Z α ′ = ( Z 1 , ⋯   , Z n ) [ Z 1 ⋮ Z n ] = Z ′ Z = X ′ X , ∑ α = 1 n − 1 Z α Z α ′ = X ′ X − Z n Z n ′ = X ′ X − n X ˉ X ˉ ′ = A . \sum_{\alpha=1}^nZ_{\alpha}Z_{\alpha}'=(Z_1,\cdots,Z_n)\begin{bmatrix} Z_1\\ \vdots \\ Z_n \end{bmatrix}=Z'Z=X'X,\\ \sum_{\alpha=1}^{n-1}Z_{\alpha}Z_{\alpha}'=X'X-Z_nZ_n'=X'X-n\bar X\bar X'=A. α=1nZαZα=(Z1,,Zn)Z1Zn=ZZ=XX,α=1n1ZαZα=XXZnZn=XXnXˉXˉ=A.
可以注意到, A A A Z 1 , ⋯   , Z n − 1 Z_1,\cdots,Z_{n-1} Z1,,Zn1的函数, X ˉ \bar X Xˉ Z n Z_n Zn的函数,又因为 Z 1 , ⋯   , Z n Z_1,\cdots,Z_n Z1,,Zn互相独立,所以 X ˉ \bar X Xˉ A A A相互独立。至于第四个性质,只需要记住,样本够多就能保证 A A A的非负定性即可。

除此以外, X ˉ , A \bar X,A Xˉ,A作为 μ , Σ \mu,\Sigma μ,Σ的最大似然估计原型,还具有以下的性质:

  1. 无偏性: X ˉ \bar X Xˉ μ \mu μ的无偏估计, A / n A/n A/n不是 Σ \Sigma Σ的无偏估计,但 S = A / ( n − 1 ) S=A/(n-1) S=A/(n1) Σ \Sigma Σ的无偏估计。
  2. 有效性: X ˉ \bar X Xˉ S S S μ , Σ \mu,\Sigma μ,Σ的一致最小方差无偏估计,即 X ˉ , S \bar X,S Xˉ,S μ , Σ \mu,\Sigma μ,Σ的有效估计量。
  3. 相合性:当 n → ∞ n\to \infty n时, X ˉ , Σ ^ = A / n \bar X,\hat \Sigma=A/n Xˉ,Σ^=A/n μ , Σ \mu,\Sigma μ,Σ的强相合估计,即随着抽样数的增加,它们总会收敛于参数。
  4. 充分性: X ˉ , Σ ^ \bar X,\hat \Sigma Xˉ,Σ^ μ , Σ \mu,\Sigma μ,Σ的充分统计量。

最大似然估计满足对参数函数依然适用的性质,即对于 μ , Σ \mu,\Sigma μ,Σ的最大似然估计 μ ^ , Σ ^ \hat \mu,\hat \Sigma μ^,Σ^,参数的函数 φ ( μ , Σ ) \varphi(\mu,\Sigma) φ(μ,Σ)的最大似然估计还是 φ ( μ ^ , Σ ^ ) \varphi(\hat \mu,\hat \Sigma) φ(μ^,Σ^)

回顾总结

  1. 参数估计中,最重要的两个统计量是样本均值 X ˉ \bar X Xˉ与样本离差阵 A A A,它们与样本数据阵 X X X的关系分别是
    X ˉ = 1 n X ′ 1 n , A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . \bar X=\frac 1nX'\boldsymbol 1_n,\\ A=X'X-n\bar X\bar X'=X'\left[I_n-\frac1n\boldsymbol 1_n\boldsymbol 1_n' \right]X. Xˉ=n1X1n,A=XXnXˉXˉ=X[Inn11n1n]X.
    还有相关的统计量如 S = A / ( n − 1 ) , S ∗ = A / n S=A/(n-1),S^*=A/n S=A/(n1),S=A/n和样本相关阵 R , r i j = a i j / a i i a j j R,r_{ij}=a_{ij}/\sqrt{a_{ii}a_{jj}} R,rij=aij/aiiajj

  2. N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的参数 μ , Σ \mu,\Sigma μ,Σ的最大似然估计分别是 μ ^ = X ˉ , Σ ^ = A / n \hat \mu=\bar X,\hat \Sigma=A/n μ^=Xˉ,Σ^=A/n,一般可以由 X ˉ , A \bar X,A Xˉ,A估计出 μ , Σ \mu,\Sigma μ,Σ估计出。

  3. 关于 X ˉ , A \bar X,A Xˉ,A的性质,有 X ˉ , A \bar X,A Xˉ,A相互独立,且
    X ˉ ∼ N p ( μ , Σ / n ) , A = d ∑ α = 1 n − 1 Z α Z α ′ , Z α ∼ i . i . d . N p ( 0 , Σ ) . \bar X\sim N_p(\mu,\Sigma/n),\\ A\stackrel {\rm d}=\sum_{\alpha=1}^{n-1} Z_\alpha Z_{\alpha}',\quad Z_\alpha\stackrel {\rm i.i.d.}\sim N_p(0,\Sigma). XˉNp(μ,Σ/n),A=dα=1n1ZαZα,Zαi.i.d.Np(0,Σ).

  4. 在无偏性方面, X ˉ \bar X Xˉ μ \mu μ的无偏估计, S = A / ( n − 1 ) S=A/(n-1) S=A/(n1) Σ \Sigma Σ的无偏估计。

  5. 在有效性方面, X ˉ , S \bar X,S Xˉ,S μ , Σ \mu,\Sigma μ,Σ的最小方差无偏估计,即有效估计。

  6. 在相合性方面, X ˉ , A / n \bar X,A/n Xˉ,A/n μ , Σ \mu,\Sigma μ,Σ的强相合估计。

  7. 对于参数函数 φ ( μ , Σ ) \varphi(\mu,\Sigma) φ(μ,Σ),它的最大似然估计是 φ ( X ˉ , A / n ) \varphi(\bar X,A/n) φ(Xˉ,A/n)

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
《应用多元统计分析》为北京大学数学科学学院概率统计系“应用多元统计分析”课程使用多年的教材,它主要介绍一些实用的多元统计分析方法的理论及其应用,并列举了各方面的应用实例,同时还以国际上著名的统计分析软件SAS系统作为典型工具,通过实例介绍如何处理数据分析中的各种实际问题。 第一章 绪论 §1.1 引言 §1.2 多元统计分析的应用 §1.3 多元统计数据的图表示法 习题一 第二章 多元正态分布参数估计 §2.1 随机向量 §2.2 多元正态分布的定义与基本性质 §2.3 条件分布和独立性 §2.4 随机阵的正态分布 §2.5 多元正态分布参数估计 习题二 第三章 多元正态总体参数的假设检验 §3.1 几个重要统计量的分布 §3.2 单总体均值向量的检验及置信域 §3.3 多总体均值向量的检验 §3.4 协方差阵的检验 §3.5 独立性检验 §3.6 正态性检验 习题三 第四章 回归分析 §4.1 经典多元线性回归 §4.2 回归变量的选择与逐步回归 §4.3 多因变量的多元线性回归 §4.4 多因变量的逐步回归 §4.5 双重筛选逐步回归 习题四 第五章 判别分析 §5.1 距离判别 §5.2 贝叶斯(Bayes)判别法及广义平方距离判别法 §5.3 费希尔(Fisher)判别 §5.4 判别效果的检验及各变量判别能力的检验 §5.5 逐步判别 习题五 第六章 聚类分析 §6.1 聚类分析的方法 §6.2 距离与相似系数 §6.3 系统聚类法 §6.4 系统聚类法的性质及类的确定 §6.5 动态聚类法 §6.6 有序样品聚类法(最优分割法) §6.7 变量聚类方法 习题六 第七章 主成分分析 §7.1 总体的主成分 §7.2 样本的主成分 §7.3 主成分分析的应用 习题七 第八章 因子分析 §8.1 引言 §8.2 因子模型 …… 第九章 对应分析方法 第十章 典型相关分析 第十一章 偏最小二乘回归分析 附录 矩阵代数 部分习题参考解答或提示 参考文献 主要符号说明 索引

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江景页

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值