【多元统计分析】04.多元正态分布的参数估计

最新推荐文章于 2025-03-08 10:38:56 发布

江景页

最新推荐文章于 2025-03-08 10:38:56 发布

阅读量8.2k

点赞数 7

分类专栏：《多元统计分析》学习笔记文章标签：多元统计分析参数估计

本文链接：https://blog.csdn.net/jingye333/article/details/109277021

版权

《多元统计分析》学习笔记专栏收录该内容

19 篇文章

订阅专栏

文章目录

四、多元正态分布的参数估计

四、多元正态分布的参数估计

1.多元正态分布的估计量

对于多元正态分布 $N_p(\mu,\Sigma)$ ，其参数只有两个——均值向量 $\mu$ 与自协方差矩阵 $\Sigma$ ，要对其进行估计，就要从总体中抽取简单随机样本。记抽取样本的容量为 $n$ ，每一个样本分别是 $X_{(\alpha)}=(x_{\alpha1},\cdots,x_{\alpha p})$ ，将样本纵向排列，得到样本数据阵
$X=\begin{bmatrix} x_{11} & \cdots & x_{1p} \\ \vdots & & \vdots \\ x_{n1} & \cdots & x_{np} \end{bmatrix}.$
从样本数据阵出发，可以获得以下统计量：

样本均值 $\bar X$ ，这是对每个维度求均值，得到的一个 $p$ 维向量
$\bar X=\frac 1n\sum_{\alpha=1}^n X_{(\alpha)}=(\bar x_1,\cdots ,\bar x_p)'=\frac 1nX'\boldsymbol 1_n.$
这里 $\bar x_i$ 是对第 $i$ 个分量的平均，即
$\bar x_i=\frac 1n\sum_{\alpha=1}^n x_{\alpha i}.$
样本离差阵 $A$ ，可以类比一维随机变量中的 $\sum_{i=1}^n (x_i-\bar x)^2$ ，即
$A=\sum_{\alpha=1}^n(X_{(\alpha)}-\bar X)(X_{(\alpha)}-\bar X)'$
这样， $A$ 是一个 $p\times p$ 对角阵，它的第 $(i, j)$ 元，其实就是
$a_{ij}=\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)(x_{\alpha j}-\bar x_j).$
由此，还可以得到
$A=X'X-n\bar X\bar X'=X'\left[I_n-\frac 1n\boldsymbol 1_n\boldsymbol 1_n' \right] X.$
这个式子用来计算离差阵更为方便。
样本协方差阵 $S$ ，可以类比一维随机变量中的样本方差，即
$S=\frac 1{n-1}A,$
其 $(i, i)$ 元是变量 $X_i$ 的样本方差，即
$s_{ii}=\frac 1{n-1}\sum_{\alpha=1}^n (x_{\alpha i}-\bar x_i)^2.$
类似一维中样本方差的定义，也有
$S^*=\frac 1n\sum_{\alpha=1}^n(x_{\alpha i}-\bar x_i)^2.$
样本相关阵 $R$ ，自然是由样本相关系数 $r_{ij}$ 构成的 $p\times p$ 矩阵，即
$R=\frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}a_{jj}}}.$

有了这些统计量，我们就可以对总体的参数 $\mu,\Sigma$ 进行估计，使用的方法是最大似然估计。

2.最大似然估计

最大似然估计指的是，以使获得样本的出现几率最大的那组参数估计量，作为参数的点估计量。与一元情形类似，可以建立似然函数的概念。使用拉直运算，对 ${\rm Vec}(X')$ 的密度函数建立似然函数，称为样本 $X_{(i)}$ 的似然函数（对数似然函数）。
$\begin{aligned} L(\mu,\Sigma)=&\prod_{\alpha=1}^n \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac12(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right] \\ =&\frac{1}{(2\pi)^{np/2}|\Sigma|^{n/2}}\exp\left[-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \right]\\ l(\mu,\Sigma)=&-\frac{np}2\ln(2\pi)+\frac n2\ln |\Sigma^{-1}|-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)'\Sigma^{-1}(x_{(\alpha)}-\mu) \end{aligned}$

要求其极大似然估计，需要对矩阵 $\Sigma$ ，向量 $\mu$ 求导（参见矩阵微商），得
$\frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\mu}=\frac12\sum_{\alpha=1}^n(\Sigma^{-1}+(\Sigma^{-1})')(x_{(\alpha)}-\mu)=\Sigma^{-1}(\sum_{\alpha=1}^n(x_{(\alpha)}-\mu))=n\Sigma^{-1}(\bar X-\mu).\\ \frac{{\rm d}l(\mu,\Sigma)}{{\rm d}\Sigma^{-1}}=-\frac n2\Sigma-\frac12\sum_{\alpha=1}^n(x_{(\alpha)}-\mu)(x_{(\alpha)}-\mu)'=-\frac12(n\Sigma-A).$
所以
$\hat \mu=\bar X,\quad \hat\Sigma = \frac An.$

用到的矩阵微商结论：对于对称阵 $A$ 与列向量 $x$ ，有
$\frac{{\rm d}\ln |A|}{{\rm d}A}=A^{-1},\\ \frac{{\rm d}x'Ax}{{\rm d}A}=xx',\\ \frac{{\rm d}x'Ax}{{\rm d}x}=(A+A')x.$

如果在已知 $\mu=\mu_0$ 的情况下，依照以上过程，就可以得到
$\hat \Sigma=\frac{1}{n}\sum_{\alpha=1}^n(x_{(\alpha)}-\mu_0)(x_{(\alpha)}-\mu_0)'.$
所以，我们要找到 $(\mu,\Sigma)$ 的估计，就需要计算 $(\bar X,A)$ ，接下来对它们进行性质讨论。

3.最大似然估计的性质

$(\bar X,A)$ 的分布具有类似一元统计中 $\bar X$ 和 $S^2$ 的性质。

定理：设 $\bar X$ 和 $A$ 分别是 $p$ 元正态总体 $N_p(\mu,\Sigma)$ 的样本均值向量和样本离差阵，则有

$\bar X\sim N_p(\mu,\frac1n\Sigma)$ ；
$A\stackrel {\rm d}=\sum\limits_{t=1}^n Z_tZ_t'$ ，其中 $Z_1,\cdots,Z_{n-1}$ 独立同 $N_p(0,\Sigma)$ 分布；
$\bar X$ 和 $A$ 相互独立；
${\rm P}\{A>0\}=1\Leftrightarrow n>p$ 。

前三个性质的证明方式也与一元情况类似，设 $X$ 为从多元正态总体中抽取的 $n\times p$ 样本数据阵， $\Gamma$ 是 $n$ 阶正交阵，形式如同
$\Gamma=\begin{bmatrix} r_{11} & \cdots & r_{1n} \\ \vdots & & \vdots \\ r_{(n-1)1} & \cdots & r_{(n-1)n} \\ 1/\sqrt n & \cdots & 1/\sqrt n \end{bmatrix}=(r_{ij})_{n\times n}.$
令
$Z=\begin{bmatrix} Z_1' \\ \vdots \\ Z_n' \end{bmatrix} = \Gamma\begin{bmatrix} X_{(1)}' \\ \vdots \\ X_{(n)}' \end{bmatrix}=\Gamma X.$
即 $Z_i'=(r_{i1},\cdots r_{in})X$ ，
$Z_i=(X_{(1)},\cdots,X_{(n)})\begin{bmatrix} r_{i1} \\ \vdots \\ r_{in} \end{bmatrix},\quad i=1,\cdots,n.$
因为 $Z_i$ 是 $X_{(1)},\cdots,X_{(n)}$ 的线性组合，所以 $Z_i$ 也是 $p$ 维正态向量，且
${\rm E}Z_i=\sum_{\alpha=1}^n r_{i\alpha}{\rm E}(X_{(\alpha)})=\left\{ \begin{array}l \sqrt{n}\sum\limits_{\alpha=1}^n r_{i\alpha}r_{n\alpha}\mu=0,&t\ne n;\\ \sum\limits_{\alpha=1}^n \frac 1{\sqrt n}\mu=\sqrt n \mu,&t=n. \end{array} \right.\\ {\rm Cov}(Z_\alpha,Z_{\beta})=\sum_{i=1}^nr_{\alpha i}r_{\beta i}\Sigma=\left\{ \begin{array}l O,&\alpha\ne \beta;\\ \Sigma,&\alpha=\beta. \end{array} \right.$
而显然 $Z_n=\sqrt n\bar X$ ，且 $Z_n\sim N_p(\sqrt n\mu,\Sigma)$ ，所以 $\bar X\sim N_p(\mu,\Sigma/n)$ 。而
$\sum_{\alpha=1}^nZ_{\alpha}Z_{\alpha}'=(Z_1,\cdots,Z_n)\begin{bmatrix} Z_1\\ \vdots \\ Z_n \end{bmatrix}=Z'Z=X'X,\\ \sum_{\alpha=1}^{n-1}Z_{\alpha}Z_{\alpha}'=X'X-Z_nZ_n'=X'X-n\bar X\bar X'=A.$
可以注意到， $A$ 是 $Z_1,\cdots,Z_{n-1}$ 的函数， $\bar X$ 是 $Z_n$ 的函数，又因为 $Z_1,\cdots,Z_n$ 互相独立，所以 $\bar X$ 和 $A$ 相互独立。至于第四个性质，只需要记住，样本够多就能保证 $A$ 的非负定性即可。

除此以外， $\bar X,A$ 作为 $\mu,\Sigma$ 的最大似然估计原型，还具有以下的性质：

无偏性： $\bar X$ 是 $\mu$ 的无偏估计， $A / n$ 不是 $\Sigma$ 的无偏估计，但 $S = A / (n - 1)$ 是 $\Sigma$ 的无偏估计。
有效性： $\bar X$ 和 $S$ 是 $\mu,\Sigma$ 的一致最小方差无偏估计，即 $\bar X,S$ 是 $\mu,\Sigma$ 的有效估计量。
相合性：当 $n\to \infty$ 时， $\bar X,\hat \Sigma=A/n$ 是 $\mu,\Sigma$ 的强相合估计，即随着抽样数的增加，它们总会收敛于参数。
充分性： $\bar X,\hat \Sigma$ 是 $\mu,\Sigma$ 的充分统计量。

最大似然估计满足对参数函数依然适用的性质，即对于 $\mu,\Sigma$ 的最大似然估计 $\hat \mu,\hat \Sigma$ ，参数的函数 $\varphi(\mu,\Sigma)$ 的最大似然估计还是 $\varphi(\hat \mu,\hat \Sigma)$ 。

回顾总结

参数估计中，最重要的两个统计量是样本均值 $\bar X$ 与样本离差阵 $A$ ，它们与样本数据阵 $X$ 的关系分别是
$\bar X=\frac 1nX'\boldsymbol 1_n,\\ A=X'X-n\bar X\bar X'=X'\left[I_n-\frac1n\boldsymbol 1_n\boldsymbol 1_n' \right]X.$
还有相关的统计量如 $S=A/(n-1),S^*=A/n$ 和样本相关阵 $R,r_{ij}=a_{ij}/\sqrt{a_{ii}a_{jj}}$ 。
$N_p(\mu,\Sigma)$ 的参数 $\mu,\Sigma$ 的最大似然估计分别是 $\hat \mu=\bar X,\hat \Sigma=A/n$ ，一般可以由 $\bar X,A$ 估计出 $\mu,\Sigma$ 估计出。
关于 $\bar X,A$ 的性质，有 $\bar X,A$ 相互独立，且
$\bar X\sim N_p(\mu,\Sigma/n),\\ A\stackrel {\rm d}=\sum_{\alpha=1}^{n-1} Z_\alpha Z_{\alpha}',\quad Z_\alpha\stackrel {\rm i.i.d.}\sim N_p(0,\Sigma).$
在无偏性方面， $\bar X$ 是 $\mu$ 的无偏估计， $S = A / (n - 1)$ 是 $\Sigma$ 的无偏估计。
在有效性方面， $\bar X,S$ 是 $\mu,\Sigma$ 的最小方差无偏估计，即有效估计。
在相合性方面， $\bar X,A/n$ 是 $\mu,\Sigma$ 的强相合估计。
对于参数函数 $\varphi(\mu,\Sigma)$ ，它的最大似然估计是 $\varphi(\bar X,A/n)$ 。