四、多元正态分布的参数估计
1.多元正态分布的估计量
对于多元正态分布
N
p
(
μ
,
Σ
)
N_p(\mu,\Sigma)
Np(μ,Σ),其参数只有两个——均值向量
μ
\mu
μ与自协方差矩阵
Σ
\Sigma
Σ,要对其进行估计,就要从总体中抽取简单随机样本。记抽取样本的容量为
n
n
n,每一个样本分别是
X
(
α
)
=
(
x
α
1
,
⋯
,
x
α
p
)
X_{(\alpha)}=(x_{\alpha1},\cdots,x_{\alpha p})
X(α)=(xα1,⋯,xαp),将样本纵向排列,得到样本数据阵
X
=
[
x
11
⋯
x
1
p
⋮
⋮
x
n
1
⋯
x
n
p
]
.
X=\begin{bmatrix} x_{11} & \cdots & x_{1p} \\ \vdots & & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix}.
X=⎣⎢⎡x11⋮xn1⋯⋯x1p⋮xnp⎦⎥⎤.
从样本数据阵出发,可以获得以下统计量:
-
样本均值 X ˉ \bar X Xˉ,这是对每个维度求均值,得到的一个 p p p维向量
X ˉ = 1 n ∑ α = 1 n X ( α ) = ( x ˉ 1 , ⋯ , x ˉ p ) ′ = 1 n X ′ 1 n . \bar X=\frac 1n\sum_{\alpha=1}^n X_{(\alpha)}=(\bar x_1,\cdots ,\bar x_p)'=\frac 1nX'\boldsymbol 1_n. Xˉ=n1α=1∑nX(α)=(xˉ1,⋯,xˉp)′=n1X′1n.
这里 x ˉ i \bar x_i xˉi是对第 i i i个分量的平均,即
x ˉ i = 1 n ∑ α = 1 n x α i . \bar x_i=\frac 1n\sum_{\alpha=1}^n x_{\alpha i}. xˉi=n1α=1∑nxαi. -
样本离差阵 A A A,可以类比一维随机变量中的 ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i-\bar x)^2 ∑i=1n(xi−xˉ)2,即
A = ∑ α = 1 n ( X ( α ) − X ˉ ) ( X ( α ) − X ˉ ) ′ A=\sum_{\alpha=1}^n(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)' A=α=1∑n(X(α)−Xˉ)(X(α)−Xˉ)′
这样, A A A是一个 p × p p\times p p×p对角阵,它的第 ( i , j ) (i,j) (i,j)元,其实就是
a i j = ∑ α = 1 n ( x α i − x ˉ i ) ( x α j − x ˉ j ) . a_{ij}=\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)(x_{\alpha j}-\bar x_j). aij=α=1∑n(xαi−xˉi)(xαj−xˉj).
由此,还可以得到
A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . A=X'X-n\bar X\bar X'=X'\left[I_n-\frac 1n\boldsymbol 1_n\boldsymbol 1_n' \right] X. A=X′X−nXˉXˉ′=X′[In−n11n1n′]X.
这个式子用来计算离差阵更为方便。 -
样本协方差阵 S S S,可以类比一维随机变量中的样本方差,即
S = 1 n − 1 A , S=\frac 1{n-1}A, S=n−11A,
其 ( i , i ) (i,i) (i,i)元是变量 X i X_i Xi的样本方差,即
s i i = 1 n − 1 ∑ α = 1 n ( x α i − x ˉ i ) 2 . s_{ii}=\frac 1{n-1}\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)^2. sii=n−11α=1∑n(xαi−xˉi)2.
类似一维中样本方差的定义,也有
S ∗ = 1 n ∑ α = 1 n ( x α i − x ˉ i ) 2 . S^*=\frac 1n\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)^2. S∗=n1α=1∑n(xαi−xˉi)2. -
样本相关阵 R R R,自然是由样本相关系数 r i j r_{ij} rij构成的 p × p p\times p p×p矩阵,即
R = s i j s i i s j j = a i j a i i a j j . R=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}a_{jj}}}. R=siisjjsij=aiiajjaij.
有了这些统计量,我们就可以对总体的参数 μ , Σ \mu,\Sigma μ,Σ进行估计,使用的方法是最大似然估计。
2.最大似然估计
最大似然估计指的是,以使获得样本的出现几率最大的那组参数估计量,作为参数的点估计量。与一元情形类似,可以建立似然函数的概念。使用拉直运算,对
V
e
c
(
X
′
)
{\rm Vec}(X')
Vec(X′)的密度函数建立似然函数,称为样本
X
(
i
)
X_{(i)}
X(i)的似然函数(对数似然函数)。
L
(
μ
,
Σ
)
=
∏
α
=
1
n
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
exp
[
−
1
2
(
x
(
α
)
−
μ
)
′
Σ
−
1
(
x
(
α
)
−
μ
)
]
=
1
(
2
π
)
n
p
/
2
∣
Σ
∣
n
/
2
exp
[
−
1
2
∑
α
=
1
n
(
x
(
α
)
−
μ
)
′
Σ
−
1
(
x
(
α
)
−
μ
)
]
l
(
μ
,
Σ
)
=
−
n
p
2
ln
(
2
π
)
+
n
2
ln
∣
Σ
−
1
∣
−
1
2
∑
α
=
1
n
(
x
(
α
)
−
μ
)
′
Σ
−
1
(
x
(
α
)
−
μ
)
\begin{aligned} L(\mu,\Sigma)=&\prod_{\alpha=1}^n \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac12(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right] \\ =&\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right]\\ l(\mu,\Sigma)=&-\frac{np}2\ln(2\pi)+\frac n2\ln |\Sigma^{-1}|-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \end{aligned}
L(μ,Σ)==l(μ,Σ)=α=1∏n(2π)p/2∣Σ∣1/21exp[−21(x(α)−μ)′Σ−1(x(α)−μ)](2π)np/2∣Σ∣n/21exp[−21α=1∑n(x(α)−μ)′Σ−1(x(α)−μ)]−2npln(2π)+2nln∣Σ−1∣−21α=1∑n(x(α)−μ)′Σ−1(x(α)−μ)
要求其极大似然估计,需要对矩阵
Σ
\Sigma
Σ,向量
μ
\mu
μ求导(参见矩阵微商),得
d
l
(
μ
,
Σ
)
d
μ
=
1
2
∑
α
=
1
n
(
Σ
−
1
+
(
Σ
−
1
)
′
)
(
x
(
α
)
−
μ
)
=
Σ
−
1
(
∑
α
=
1
n
(
x
(
α
)
−
μ
)
)
=
n
Σ
−
1
(
X
ˉ
−
μ
)
.
d
l
(
μ
,
Σ
)
d
Σ
−
1
=
−
n
2
Σ
−
1
2
∑
α
=
1
n
(
x
(
α
)
−
μ
)
(
x
(
α
)
−
μ
)
′
=
−
1
2
(
n
Σ
−
A
)
.
\frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\mu}=\frac12\sum_{\alpha=1}^n(\Sigma^{-1}+(\Sigma^{-1})')(x_{(\alpha)}-\mu)=\Sigma^{-1}(\sum_{\alpha=1}^n(x_{(\alpha)}-\mu))=n\Sigma^{-1}(\bar X-\mu).\\ \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\Sigma^{-1}}=-\frac n2\Sigma-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)(x_{(\alpha)}-\mu)'=-\frac12(n\Sigma-A).
dμdl(μ,Σ)=21α=1∑n(Σ−1+(Σ−1)′)(x(α)−μ)=Σ−1(α=1∑n(x(α)−μ))=nΣ−1(Xˉ−μ).dΣ−1dl(μ,Σ)=−2nΣ−21α=1∑n(x(α)−μ)(x(α)−μ)′=−21(nΣ−A).
所以
μ
^
=
X
ˉ
,
Σ
^
=
A
n
.
\hat \mu=\bar X,\quad \hat\Sigma = \frac An.
μ^=Xˉ,Σ^=nA.
用到的矩阵微商结论:对于对称阵 A A A与列向量 x x x,有
d ln ∣ A ∣ d A = A − 1 , d x ′ A x d A = x x ′ , d x ′ A x d x = ( A + A ′ ) x . \frac{{\rm d}\ln |A|}{{\rm d}A}=A^{-1},\\ \frac{{\rm d}x'Ax}{{\rm d}A}=xx',\\ \frac{{\rm d}x'Ax}{{\rm d}x}=(A+A')x. dAdln∣A∣=A−1,dAdx′Ax=xx′,dxdx′Ax=(A+A′)x.
如果在已知
μ
=
μ
0
\mu=\mu_0
μ=μ0的情况下,依照以上过程,就可以得到
Σ
^
=
1
n
∑
α
=
1
n
(
x
(
α
)
−
μ
0
)
(
x
(
α
)
−
μ
0
)
′
.
\hat \Sigma=\frac{1}{n}\sum_{\alpha=1}^n(x_{(\alpha)}-\mu_0)(x_{(\alpha)}-\mu_0)'.
Σ^=n1α=1∑n(x(α)−μ0)(x(α)−μ0)′.
所以,我们要找到
(
μ
,
Σ
)
(\mu,\Sigma)
(μ,Σ)的估计,就需要计算
(
X
ˉ
,
A
)
(\bar X,A)
(Xˉ,A),接下来对它们进行性质讨论。
3.最大似然估计的性质
( X ˉ , A ) (\bar X,A) (Xˉ,A)的分布具有类似一元统计中 X ˉ \bar X Xˉ和 S 2 S^2 S2的性质。
定理:设 X ˉ \bar X Xˉ和 A A A分别是 p p p元正态总体 N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的样本均值向量和样本离差阵,则有
- X ˉ ∼ N p ( μ , 1 n Σ ) \bar X\sim N_p(\mu,\frac1n\Sigma) Xˉ∼Np(μ,n1Σ);
- A = d ∑ t = 1 n Z t Z t ′ A\stackrel {\rm d}=\sum\limits_{t=1}^n Z_tZ_t' A=dt=1∑nZtZt′,其中 Z 1 , ⋯ , Z n − 1 Z_1,\cdots,Z_{n-1} Z1,⋯,Zn−1独立同 N p ( 0 , Σ ) N_p(0,\Sigma) Np(0,Σ)分布;
- X ˉ \bar X Xˉ和 A A A相互独立;
- P { A > 0 } = 1 ⇔ n > p {\rm P}\{A>0\}=1\Leftrightarrow n>p P{A>0}=1⇔n>p。
前三个性质的证明方式也与一元情况类似,设
X
X
X为从多元正态总体中抽取的
n
×
p
n\times p
n×p样本数据阵,
Γ
\Gamma
Γ是
n
n
n阶正交阵,形式如同
Γ
=
[
r
11
⋯
r
1
n
⋮
⋮
r
(
n
−
1
)
1
⋯
r
(
n
−
1
)
n
1
/
n
⋯
1
/
n
]
=
(
r
i
j
)
n
×
n
.
\Gamma=\begin{bmatrix} r_{11} & \cdots & r_{1n} \\ \vdots & & \vdots \\ r_{(n-1)1} & \cdots & r_{(n-1)n} \\ 1/\sqrt n & \cdots & 1/\sqrt n \end{bmatrix}=(r_{ij})_{n\times n}.
Γ=⎣⎢⎢⎢⎡r11⋮r(n−1)11/n⋯⋯⋯r1n⋮r(n−1)n1/n⎦⎥⎥⎥⎤=(rij)n×n.
令
Z
=
[
Z
1
′
⋮
Z
n
′
]
=
Γ
[
X
(
1
)
′
⋮
X
(
n
)
′
]
=
Γ
X
.
Z=\begin{bmatrix} Z_1' \\ \vdots \\ Z_n' \end{bmatrix} = \Gamma\begin{bmatrix} X_{(1)}' \\ \vdots \\ X_{(n)}' \end{bmatrix}=\Gamma X.
Z=⎣⎢⎡Z1′⋮Zn′⎦⎥⎤=Γ⎣⎢⎡X(1)′⋮X(n)′⎦⎥⎤=ΓX.
即
Z
i
′
=
(
r
i
1
,
⋯
r
i
n
)
X
Z_i'=(r_{i1},\cdots r_{in})X
Zi′=(ri1,⋯rin)X,
Z
i
=
(
X
(
1
)
,
⋯
,
X
(
n
)
)
[
r
i
1
⋮
r
i
n
]
,
i
=
1
,
⋯
,
n
.
Z_i=(X_{(1)},\cdots,X_{(n)})\begin{bmatrix} r_{i1} \\ \vdots \\ r_{in} \end{bmatrix},\quad i=1,\cdots,n.
Zi=(X(1),⋯,X(n))⎣⎢⎡ri1⋮rin⎦⎥⎤,i=1,⋯,n.
因为
Z
i
Z_i
Zi是
X
(
1
)
,
⋯
,
X
(
n
)
X_{(1)},\cdots,X_{(n)}
X(1),⋯,X(n)的线性组合,所以
Z
i
Z_i
Zi也是
p
p
p维正态向量,且
E
Z
i
=
∑
α
=
1
n
r
i
α
E
(
X
(
α
)
)
=
{
n
∑
α
=
1
n
r
i
α
r
n
α
μ
=
0
,
t
≠
n
;
∑
α
=
1
n
1
n
μ
=
n
μ
,
t
=
n
.
C
o
v
(
Z
α
,
Z
β
)
=
∑
i
=
1
n
r
α
i
r
β
i
Σ
=
{
O
,
α
≠
β
;
Σ
,
α
=
β
.
{\rm E}Z_i=\sum_{\alpha=1}^n r_{i\alpha}{\rm E}(X_{(\alpha)})=\left\{ \begin{array}l \sqrt{n}\sum\limits_{\alpha=1}^n r_{i\alpha}r_{n\alpha}\mu=0,&t\ne n;\\ \sum\limits_{\alpha=1}^n \frac 1{\sqrt n}\mu=\sqrt n \mu,&t=n. \end{array} \right.\\ {\rm Cov}(Z_\alpha,Z_{\beta})=\sum_{i=1}^nr_{\alpha i}r_{\beta i}\Sigma=\left\{ \begin{array}l O,&\alpha\ne \beta;\\ \Sigma,&\alpha=\beta. \end{array} \right.
EZi=α=1∑nriαE(X(α))=⎩⎪⎨⎪⎧nα=1∑nriαrnαμ=0,α=1∑nn1μ=nμ,t=n;t=n.Cov(Zα,Zβ)=i=1∑nrαirβiΣ={O,Σ,α=β;α=β.
而显然
Z
n
=
n
X
ˉ
Z_n=\sqrt n\bar X
Zn=nXˉ,且
Z
n
∼
N
p
(
n
μ
,
Σ
)
Z_n\sim N_p(\sqrt n\mu,\Sigma)
Zn∼Np(nμ,Σ),所以
X
ˉ
∼
N
p
(
μ
,
Σ
/
n
)
\bar X\sim N_p(\mu,\Sigma/n)
Xˉ∼Np(μ,Σ/n)。而
∑
α
=
1
n
Z
α
Z
α
′
=
(
Z
1
,
⋯
,
Z
n
)
[
Z
1
⋮
Z
n
]
=
Z
′
Z
=
X
′
X
,
∑
α
=
1
n
−
1
Z
α
Z
α
′
=
X
′
X
−
Z
n
Z
n
′
=
X
′
X
−
n
X
ˉ
X
ˉ
′
=
A
.
\sum_{\alpha=1}^nZ_{\alpha}Z_{\alpha}'=(Z_1,\cdots,Z_n)\begin{bmatrix} Z_1\\ \vdots \\ Z_n \end{bmatrix}=Z'Z=X'X,\\ \sum_{\alpha=1}^{n-1}Z_{\alpha}Z_{\alpha}'=X'X-Z_nZ_n'=X'X-n\bar X\bar X'=A.
α=1∑nZαZα′=(Z1,⋯,Zn)⎣⎢⎡Z1⋮Zn⎦⎥⎤=Z′Z=X′X,α=1∑n−1ZαZα′=X′X−ZnZn′=X′X−nXˉXˉ′=A.
可以注意到,
A
A
A是
Z
1
,
⋯
,
Z
n
−
1
Z_1,\cdots,Z_{n-1}
Z1,⋯,Zn−1的函数,
X
ˉ
\bar X
Xˉ是
Z
n
Z_n
Zn的函数,又因为
Z
1
,
⋯
,
Z
n
Z_1,\cdots,Z_n
Z1,⋯,Zn互相独立,所以
X
ˉ
\bar X
Xˉ和
A
A
A相互独立。至于第四个性质,只需要记住,样本够多就能保证
A
A
A的非负定性即可。
除此以外, X ˉ , A \bar X,A Xˉ,A作为 μ , Σ \mu,\Sigma μ,Σ的最大似然估计原型,还具有以下的性质:
- 无偏性: X ˉ \bar X Xˉ是 μ \mu μ的无偏估计, A / n A/n A/n不是 Σ \Sigma Σ的无偏估计,但 S = A / ( n − 1 ) S=A/(n-1) S=A/(n−1)是 Σ \Sigma Σ的无偏估计。
- 有效性: X ˉ \bar X Xˉ和 S S S是 μ , Σ \mu,\Sigma μ,Σ的一致最小方差无偏估计,即 X ˉ , S \bar X,S Xˉ,S是 μ , Σ \mu,\Sigma μ,Σ的有效估计量。
- 相合性:当 n → ∞ n\to \infty n→∞时, X ˉ , Σ ^ = A / n \bar X,\hat \Sigma=A/n Xˉ,Σ^=A/n是 μ , Σ \mu,\Sigma μ,Σ的强相合估计,即随着抽样数的增加,它们总会收敛于参数。
- 充分性: X ˉ , Σ ^ \bar X,\hat \Sigma Xˉ,Σ^是 μ , Σ \mu,\Sigma μ,Σ的充分统计量。
最大似然估计满足对参数函数依然适用的性质,即对于 μ , Σ \mu,\Sigma μ,Σ的最大似然估计 μ ^ , Σ ^ \hat \mu,\hat \Sigma μ^,Σ^,参数的函数 φ ( μ , Σ ) \varphi(\mu,\Sigma) φ(μ,Σ)的最大似然估计还是 φ ( μ ^ , Σ ^ ) \varphi(\hat \mu,\hat \Sigma) φ(μ^,Σ^)。
回顾总结
-
参数估计中,最重要的两个统计量是样本均值 X ˉ \bar X Xˉ与样本离差阵 A A A,它们与样本数据阵 X X X的关系分别是
X ˉ = 1 n X ′ 1 n , A = X ′ X − n X ˉ X ˉ ′ = X ′ [ I n − 1 n 1 n 1 n ′ ] X . \bar X=\frac 1nX'\boldsymbol 1_n,\\ A=X'X-n\bar X\bar X'=X'\left[I_n-\frac1n\boldsymbol 1_n\boldsymbol 1_n' \right]X. Xˉ=n1X′1n,A=X′X−nXˉXˉ′=X′[In−n11n1n′]X.
还有相关的统计量如 S = A / ( n − 1 ) , S ∗ = A / n S=A/(n-1),S^*=A/n S=A/(n−1),S∗=A/n和样本相关阵 R , r i j = a i j / a i i a j j R,r_{ij}=a_{ij}/\sqrt{a_{ii}a_{jj}} R,rij=aij/aiiajj。 -
N p ( μ , Σ ) N_p(\mu,\Sigma) Np(μ,Σ)的参数 μ , Σ \mu,\Sigma μ,Σ的最大似然估计分别是 μ ^ = X ˉ , Σ ^ = A / n \hat \mu=\bar X,\hat \Sigma=A/n μ^=Xˉ,Σ^=A/n,一般可以由 X ˉ , A \bar X,A Xˉ,A估计出 μ , Σ \mu,\Sigma μ,Σ估计出。
-
关于 X ˉ , A \bar X,A Xˉ,A的性质,有 X ˉ , A \bar X,A Xˉ,A相互独立,且
X ˉ ∼ N p ( μ , Σ / n ) , A = d ∑ α = 1 n − 1 Z α Z α ′ , Z α ∼ i . i . d . N p ( 0 , Σ ) . \bar X\sim N_p(\mu,\Sigma/n),\\ A\stackrel {\rm d}=\sum_{\alpha=1}^{n-1} Z_\alpha Z_{\alpha}',\quad Z_\alpha\stackrel {\rm i.i.d.}\sim N_p(0,\Sigma). Xˉ∼Np(μ,Σ/n),A=dα=1∑n−1ZαZα′,Zα∼i.i.d.Np(0,Σ). -
在无偏性方面, X ˉ \bar X Xˉ是 μ \mu μ的无偏估计, S = A / ( n − 1 ) S=A/(n-1) S=A/(n−1)是 Σ \Sigma Σ的无偏估计。
-
在有效性方面, X ˉ , S \bar X,S Xˉ,S是 μ , Σ \mu,\Sigma μ,Σ的最小方差无偏估计,即有效估计。
-
在相合性方面, X ˉ , A / n \bar X,A/n Xˉ,A/n是 μ , Σ \mu,\Sigma μ,Σ的强相合估计。
-
对于参数函数 φ ( μ , Σ ) \varphi(\mu,\Sigma) φ(μ,Σ),它的最大似然估计是 φ ( X ˉ , A / n ) \varphi(\bar X,A/n) φ(Xˉ,A/n)。