【多元统计分析】04.多元正态分布的参数估计

四、多元正态分布的参数估计

1.多元正态分布的估计量

对于多元正态分布 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ),其参数只有两个——均值向量 μ \mu μ与自协方差矩阵 Σ \Sigma Σ,要对其进行估计,就要从总体中抽取简单随机样本。记抽取样本的容量为 n n n,每一个样本分别是 X ( α ) = ( x α 1 , ⋯   , x α p ) X_{(\alpha)}=(x_{\alpha1},\cdots,x_{\alpha p}) X(α)=(xα1,,xαp),将样本纵向排列,得到样本数据阵
X = [ x 11 ⋯ x 1 p ⋮ ⋮ x n 1 ⋯ x n p ] . X=\begin{bmatrix} x_{11} & \cdots & x_{1p} \\ \vdots & & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix}. X=x11xn1x1pxnp.
从样本数据阵出发,可以获得以下统计量:

  1. 样本均值 X ˉ \bar X Xˉ,这是对每个维度求均值,得到的一个 p p p维向量
    X ˉ = 1 n ∑ α = 1 n X ( α ) = ( x ˉ 1 , ⋯   , x ˉ p ) ′ = 1 n X ′ 1 n . \bar X=\frac 1n\sum_{\alpha=1}^n X_{(\alpha)}=(\bar x_1,\cdots ,\bar x_p)'=\frac 1nX'\boldsymbol 1_n. Xˉ=n1α=1nX(α)=(xˉ1,,xˉp)=n1X1n.
    这里 x ˉ i \bar x_i xˉi是对第 i i i个分量的平均,即
    x ˉ i = 1 n ∑ α = 1 n x α i . \bar x_i=\frac 1n\sum_{\alpha=1}^n x_{\alpha i}. xˉi=n1α=1nxαi.

  2. 样本离差阵 A A A,可以类比一维随机变量中的 ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i-\bar x)^2 i=1n(xixˉ)2,即
    A = ∑ α = 1 n ( X ( α ) − X ˉ ) ( X ( α ) − X ˉ ) ′ A=\sum_{\alpha=1}^n(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)' A=α=1n(X(α)Xˉ)(X(α)Xˉ)
    这样, A A A是一个 p × p p\times p p×p对角阵,它的第 ( i , j ) (i,j) (i,j)元,其实就是
    a i j = ∑ α = 1 n ( x α i − x ˉ i ) ( x α j − x ˉ j ) . a_{ij}=\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)(x_{\alpha j}-\bar x_j). aij=α=1n(xαixˉi)(xαjxˉj).
    由此,还可以得到
    A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . A=X'X-n\bar X\bar X'=X'\left[I_n-\frac 1n\boldsymbol 1_n\boldsymbol 1_n' \right] X. A=XXnXˉXˉ=X[Inn11n1n]X.
    这个式子用来计算离差阵更为方便。

  3. 样本协方差阵 S S S,可以类比一维随机变量中的样本方差,即
    S = 1 n − 1 A , S=\frac 1{n-1}A, S=n11A,
    ( i , i ) (i,i) (i,i)元是变量 X i X_i Xi的样本方差,即
    s i i = 1 n − 1 ∑ α = 1 n ( x α i − x ˉ i ) 2 . s_{ii}=\frac 1{n-1}\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)^2. sii=n11α=1n(xαixˉi)2.
    类似一维中样本方差的定义,也有
    S ∗ = 1 n ∑ α = 1 n ( x α i − x ˉ i ) 2 . S^*=\frac 1n\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)^2. S=n1α=1n(xαixˉi)2.

  4. 样本相关阵 R R R,自然是由样本相关系数 r i j r_{ij} rij构成的 p × p p\times p p×p矩阵,即
    R = s i j s i i s j j = a i j a i i a j j . R=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}a_{jj}}}. R=siisjj sij=aiiajj aij.

有了这些统计量,我们就可以对总体的参数 μ , Σ \mu,\Sigma μ,Σ进行估计,使用的方法是最大似然估计。

2.最大似然估计

最大似然估计指的是,以使获得样本的出现几率最大的那组参数估计量,作为参数的点估计量。与一元情形类似,可以建立似然函数的概念。使用拉直运算,对 V e c ( X ′ ) {\rm Vec}(X') Vec(X)的密度函数建立似然函数,称为样本 X ( i ) X_{(i)} X(i)的似然函数(对数似然函数)。
L ( μ , Σ ) = ∏ α = 1 n 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 exp ⁡ [ − 1 2 ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) ] = 1 ( 2 π ) n p / 2 ∣ Σ ∣ n / 2 exp ⁡ [ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) ] l ( μ , Σ ) = − n p 2 ln ⁡ ( 2 π ) + n 2 ln ⁡ ∣ Σ − 1 ∣ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ′ Σ − 1 ( x ( α ) − μ ) \begin{aligned} L(\mu,\Sigma)=&\prod_{\alpha=1}^n \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac12(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right] \\ =&\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right]\\ l(\mu,\Sigma)=&-\frac{np}2\ln(2\pi)+\frac n2\ln |\Sigma^{-1}|-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \end{aligned} L(μ,Σ)==l(μ,Σ)=α=1n(2π)p/2Σ1/21exp[21(x(α)μ)Σ1(x(α)μ)](2π)np/2Σn/21exp[21α=1n(x(α)μ)Σ1(x(α)μ)]2npln(2π)+2nlnΣ121α=1n(x(α)μ)Σ1(x(α)μ)

要求其极大似然估计,需要对矩阵 Σ \Sigma Σ,向量 μ \mu μ求导(参见矩阵微商),得
d l ( μ , Σ ) d μ = 1 2 ∑ α = 1 n ( Σ − 1 + ( Σ − 1 ) ′ ) ( x ( α ) − μ ) = Σ − 1 ( ∑ α = 1 n ( x ( α ) − μ ) ) = n Σ − 1 ( X ˉ − μ ) . d l ( μ , Σ ) d Σ − 1 = − n 2 Σ − 1 2 ∑ α = 1 n ( x ( α ) − μ ) ( x ( α ) − μ ) ′ = − 1 2 ( n Σ − A ) . \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\mu}=\frac12\sum_{\alpha=1}^n(\Sigma^{-1}+(\Sigma^{-1})')(x_{(\alpha)}-\mu)=\Sigma^{-1}(\sum_{\alpha=1}^n(x_{(\alpha)}-\mu))=n\Sigma^{-1}(\bar X-\mu).\\ \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\Sigma^{-1}}=-\frac n2\Sigma-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)(x_{(\alpha)}-\mu)'=-\frac12(n\Sigma-A). dμdl(μ,Σ)=21α=1n(Σ1+(Σ1))(x(α)μ)=Σ1(α=1n(x(α)μ))=nΣ1(Xˉμ).dΣ1dl(μ,Σ)=2nΣ21α=1n(x(α)μ)(x(α)μ)=21(nΣA).
所以
μ ^ = X ˉ , Σ ^ = A n . \hat \mu=\bar X,\quad \hat\Sigma = \frac An. μ^=Xˉ,Σ^=nA.

用到的矩阵微商结论:对于对称阵 A A A与列向量 x x x,有
d ln ⁡ ∣ A ∣ d A = A − 1 , d x ′ A x d A = x x ′ , d x ′ A x d x = ( A + A ′ ) x . \frac{{\rm d}\ln |A|}{{\rm d}A}=A^{-1},\\ \frac{{\rm d}x'Ax}{{\rm d}A}=xx',\\ \frac{{\rm d}x'Ax}{{\rm d}x}=(A+A')x. dAdlnA=A1,dAdxAx=xx,dxdxAx=(A+A)x.

如果在已知 μ = μ 0 \mu=\mu_0 μ=μ0的情况下,依照以上过程,就可以得到
Σ ^ = 1 n ∑ α = 1 n ( x ( α ) − μ 0 ) ( x ( α ) − μ 0 ) ′ . \hat \Sigma=\frac{1}{n}\sum_{\alpha=1}^n(x_{(\alpha)}-\mu_0)(x_{(\alpha)}-\mu_0)'. Σ^=n1α=1n(x(α)μ0)(x(α)μ0).
所以,我们要找到 ( μ , Σ ) (\mu,\Sigma) (μ,Σ)的估计,就需要计算 ( X ˉ , A ) (\bar X,A) (Xˉ,A),接下来对它们进行性质讨论。

3.最大似然估计的性质

( X ˉ , A ) (\bar X,A) (Xˉ,A)的分布具有类似一元统计中 X ˉ \bar X Xˉ S 2 S^2 S2的性质。

定理:设 X ˉ \bar X Xˉ A A A分别是 p p p元正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的样本均值向量和样本离差阵,则有

  1. X ˉ ∼ N p ( μ , 1 n Σ ) \bar X\sim N_p(\mu,\frac1n\Sigma) XˉNp(μ,n1Σ)
  2. A = d ∑ t = 1 n Z t Z t ′ A\stackrel {\rm d}=\sum\limits_{t=1}^n Z_tZ_t' A=dt=1nZtZt,其中 Z 1 , ⋯   , Z n − 1 Z_1,\cdots,Z_{n-1} Z1,,Zn1独立同 N p ( 0 , Σ ) N_p(0,\Sigma) Np(0,Σ)分布;
  3. X ˉ \bar X Xˉ A A A相互独立;
  4. P { A > 0 } = 1 ⇔ n > p {\rm P}\{A>0\}=1\Leftrightarrow n>p P{A>0}=1n>p

前三个性质的证明方式也与一元情况类似,设 X X X为从多元正态总体中抽取的 n × p n\times p n×p样本数据阵, Γ \Gamma Γ n n n正交阵,形式如同
Γ = [ r 11 ⋯ r 1 n ⋮ ⋮ r ( n − 1 ) 1 ⋯ r ( n − 1 ) n 1 / n ⋯ 1 / n ] = ( r i j ) n × n . \Gamma=\begin{bmatrix} r_{11} & \cdots & r_{1n} \\ \vdots & & \vdots \\ r_{(n-1)1} & \cdots & r_{(n-1)n} \\ 1/\sqrt n & \cdots & 1/\sqrt n \end{bmatrix}=(r_{ij})_{n\times n}. Γ=r11r(n1)11/n r1nr(n1)n1/n =(rij)n×n.

Z = [ Z 1 ′ ⋮ Z n ′ ] = Γ [ X ( 1 ) ′ ⋮ X ( n ) ′ ] = Γ X . Z=\begin{bmatrix} Z_1' \\ \vdots \\ Z_n' \end{bmatrix} = \Gamma\begin{bmatrix} X_{(1)}' \\ \vdots \\ X_{(n)}' \end{bmatrix}=\Gamma X. Z=Z1Zn=ΓX(1)X(n)=ΓX.
Z i ′ = ( r i 1 , ⋯ r i n ) X Z_i'=(r_{i1},\cdots r_{in})X Zi=(ri1,rin)X
Z i = ( X ( 1 ) , ⋯   , X ( n ) ) [ r i 1 ⋮ r i n ] , i = 1 , ⋯   , n . Z_i=(X_{(1)},\cdots,X_{(n)})\begin{bmatrix} r_{i1} \\ \vdots \\ r_{in} \end{bmatrix},\quad i=1,\cdots,n. Zi=(X(1),,X(n))ri1rin,i=1,,n.
因为 Z i Z_i Zi X ( 1 ) , ⋯   , X ( n ) X_{(1)},\cdots,X_{(n)} X(1),,X(n)的线性组合,所以 Z i Z_i Zi也是 p p p维正态向量,且
E Z i = ∑ α = 1 n r i α E ( X ( α ) ) = { n ∑ α = 1 n r i α r n α μ = 0 , t ≠ n ; ∑ α = 1 n 1 n μ = n μ , t = n . C o v ( Z α , Z β ) = ∑ i = 1 n r α i r β i Σ = { O , α ≠ β ; Σ , α = β . {\rm E}Z_i=\sum_{\alpha=1}^n r_{i\alpha}{\rm E}(X_{(\alpha)})=\left\{ \begin{array}l \sqrt{n}\sum\limits_{\alpha=1}^n r_{i\alpha}r_{n\alpha}\mu=0,&t\ne n;\\ \sum\limits_{\alpha=1}^n \frac 1{\sqrt n}\mu=\sqrt n \mu,&t=n. \end{array} \right.\\ {\rm Cov}(Z_\alpha,Z_{\beta})=\sum_{i=1}^nr_{\alpha i}r_{\beta i}\Sigma=\left\{ \begin{array}l O,&\alpha\ne \beta;\\ \Sigma,&\alpha=\beta. \end{array} \right. EZi=α=1nriαE(X(α))=n α=1nriαrnαμ=0,α=1nn 1μ=n μ,t=n;t=n.Cov(Zα,Zβ)=i=1nrαirβiΣ={O,Σ,α=β;α=β.
而显然 Z n = n X ˉ Z_n=\sqrt n\bar X Zn=n Xˉ,且 Z n ∼ N p ( n μ , Σ ) Z_n\sim N_p(\sqrt n\mu,\Sigma) ZnNp(n μ,Σ),所以 X ˉ ∼ N p ( μ , Σ / n ) \bar X\sim N_p(\mu,\Sigma/n) XˉNp(μ,Σ/n)。而
∑ α = 1 n Z α Z α ′ = ( Z 1 , ⋯   , Z n ) [ Z 1 ⋮ Z n ] = Z ′ Z = X ′ X , ∑ α = 1 n − 1 Z α Z α ′ = X ′ X − Z n Z n ′ = X ′ X − n X ˉ X ˉ ′ = A . \sum_{\alpha=1}^nZ_{\alpha}Z_{\alpha}'=(Z_1,\cdots,Z_n)\begin{bmatrix} Z_1\\ \vdots \\ Z_n \end{bmatrix}=Z'Z=X'X,\\ \sum_{\alpha=1}^{n-1}Z_{\alpha}Z_{\alpha}'=X'X-Z_nZ_n'=X'X-n\bar X\bar X'=A. α=1nZαZα=(Z1,,Zn)Z1Zn=ZZ=XX,α=1n1ZαZα=XXZnZn=XXnXˉXˉ=A.
可以注意到, A A A Z 1 , ⋯   , Z n − 1 Z_1,\cdots,Z_{n-1} Z1,,Zn1的函数, X ˉ \bar X Xˉ Z n Z_n Zn的函数,又因为 Z 1 , ⋯   , Z n Z_1,\cdots,Z_n Z1,,Zn互相独立,所以 X ˉ \bar X Xˉ A A A相互独立。至于第四个性质,只需要记住,样本够多就能保证 A A A的非负定性即可。

除此以外, X ˉ , A \bar X,A Xˉ,A作为 μ , Σ \mu,\Sigma μ,Σ的最大似然估计原型,还具有以下的性质:

  1. 无偏性: X ˉ \bar X Xˉ μ \mu μ的无偏估计, A / n A/n A/n不是 Σ \Sigma Σ的无偏估计,但 S = A / ( n − 1 ) S=A/(n-1) S=A/(n1) Σ \Sigma Σ的无偏估计。
  2. 有效性: X ˉ \bar X Xˉ S S S μ , Σ \mu,\Sigma μ,Σ的一致最小方差无偏估计,即 X ˉ , S \bar X,S Xˉ,S μ , Σ \mu,\Sigma μ,Σ的有效估计量。
  3. 相合性:当 n → ∞ n\to \infty n时, X ˉ , Σ ^ = A / n \bar X,\hat \Sigma=A/n Xˉ,Σ^=A/n μ , Σ \mu,\Sigma μ,Σ的强相合估计,即随着抽样数的增加,它们总会收敛于参数。
  4. 充分性: X ˉ , Σ ^ \bar X,\hat \Sigma Xˉ,Σ^ μ , Σ \mu,\Sigma μ,Σ的充分统计量。

最大似然估计满足对参数函数依然适用的性质,即对于 μ , Σ \mu,\Sigma μ,Σ的最大似然估计 μ ^ , Σ ^ \hat \mu,\hat \Sigma μ^,Σ^,参数的函数 φ ( μ , Σ ) \varphi(\mu,\Sigma) φ(μ,Σ)的最大似然估计还是 φ ( μ ^ , Σ ^ ) \varphi(\hat \mu,\hat \Sigma) φ(μ^,Σ^)

回顾总结

  1. 参数估计中,最重要的两个统计量是样本均值 X ˉ \bar X Xˉ与样本离差阵 A A A,它们与样本数据阵 X X X的关系分别是
    X ˉ = 1 n X ′ 1 n , A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . \bar X=\frac 1nX'\boldsymbol 1_n,\\ A=X'X-n\bar X\bar X'=X'\left[I_n-\frac1n\boldsymbol 1_n\boldsymbol 1_n' \right]X. Xˉ=n1X1n,A=XXnXˉXˉ=X[Inn11n1n]X.
    还有相关的统计量如 S = A / ( n − 1 ) , S ∗ = A / n S=A/(n-1),S^*=A/n S=A/(n1),S=A/n和样本相关阵 R , r i j = a i j / a i i a j j R,r_{ij}=a_{ij}/\sqrt{a_{ii}a_{jj}} R,rij=aij/aiiajj

  2. N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的参数 μ , Σ \mu,\Sigma μ,Σ的最大似然估计分别是 μ ^ = X ˉ , Σ ^ = A / n \hat \mu=\bar X,\hat \Sigma=A/n μ^=Xˉ,Σ^=A/n,一般可以由 X ˉ , A \bar X,A Xˉ,A估计出 μ , Σ \mu,\Sigma μ,Σ估计出。

  3. 关于 X ˉ , A \bar X,A Xˉ,A的性质,有 X ˉ , A \bar X,A Xˉ,A相互独立,且
    X ˉ ∼ N p ( μ , Σ / n ) , A = d ∑ α = 1 n − 1 Z α Z α ′ , Z α ∼ i . i . d . N p ( 0 , Σ ) . \bar X\sim N_p(\mu,\Sigma/n),\\ A\stackrel {\rm d}=\sum_{\alpha=1}^{n-1} Z_\alpha Z_{\alpha}',\quad Z_\alpha\stackrel {\rm i.i.d.}\sim N_p(0,\Sigma). XˉNp(μ,Σ/n),A=dα=1n1ZαZα,Zαi.i.d.Np(0,Σ).

  4. 在无偏性方面, X ˉ \bar X Xˉ μ \mu μ的无偏估计, S = A / ( n − 1 ) S=A/(n-1) S=A/(n1) Σ \Sigma Σ的无偏估计。

  5. 在有效性方面, X ˉ , S \bar X,S Xˉ,S μ , Σ \mu,\Sigma μ,Σ的最小方差无偏估计,即有效估计。

  6. 在相合性方面, X ˉ , A / n \bar X,A/n Xˉ,A/n μ , Σ \mu,\Sigma μ,Σ的强相合估计。

  7. 对于参数函数 φ ( μ , Σ ) \varphi(\mu,\Sigma) φ(μ,Σ),它的最大似然估计是 φ ( X ˉ , A / n ) \varphi(\bar X,A/n) φ(Xˉ,A/n)

  • 6
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值