【多元统计分析】06.均值的区间估计与似然比检验

最新推荐文章于 2025-03-05 21:49:04 发布

江景页

最新推荐文章于 2025-03-05 21:49:04 发布

阅读量3.1k

点赞数 2

分类专栏：《多元统计分析》学习笔记文章标签：多元统计分析区间估计似然比检验

本文链接：https://blog.csdn.net/jingye333/article/details/109319092

版权

《多元统计分析》学习笔记专栏收录该内容

19 篇文章

订阅专栏

文章目录

六、均值的区间估计与似然比检验

六、均值的区间估计与似然比检验

1.均值的区间估计

之前我们讨论过正态总体 $N_p(\mu,\Sigma)$ 中参数的点估计，提到用 $\bar X$ 作为 $\mu$ 的极大似然估计，这是一种点估计。如同一元统计中说的一样，尽管点估计具有无偏性、有效性、相合性等等优点，但点估计与估计参数相等的概率依然是0。而构造一个置信区间，就使得均值有落到置信区间中的可能，现在我们来讨论均值的区间估计。

由于多元统计中的均值是一个向量，故置信区间也应该是多维的，然而为了与一元三大分布的分位数建立联系，我们还是要将向量转化为一个数值。而且，既然是对均值的估计，枢轴量自然与样本均值有关的。

如果总体为 $N_p(\mu,\Sigma)$ ，抽取 $n$ 个样本 $X_{(1)},\cdots,X_{(n)}$ ，则有 $\bar X\sim N(\mu,\Sigma/n),A\sim W_p(n-1,\Sigma)$ ，所以应构造枢轴量消除 $\Sigma$ 的影响，即
$T^2=[\sqrt n(\bar X-\mu)]'\left(\frac{A}{n-1} \right)^{-1}[\sqrt n (\bar X-\mu)]\sim T^2(p,n-1),$
与一元统计建立起联系，又有
$\frac{n-p}{(n-1)p}T^2\sim F(p,n-p).$
所以对于给定的置信度 $\alpha$ ，设 $F_\alpha$ 满足 ${\rm P}\{F(p,n-p)\le F_\alpha\}=1-\alpha$ ，则置信域应该使得
$\frac{n-p}{(n-1)p}T^2\le F_{\alpha},\\ n(\bar X-\mu)'S^{-1}(\bar X-\mu) \le \frac{(n-1)p}{n-p}F_{\alpha}.$
这是一个中心在 $\bar X$ 的椭球。想想一元统计中区间估计与假设检验的关系，就可以知道，如果需要检验的假设是 $H_0:\mu=\mu_0$ ，则 $\mu_0$ 落在置信域内就应当接受原假设，否则应当拒绝原假设。

2.联立置信区间

求解一个置信椭球很多时候是不太方便的，在刚刚得到的置信椭球中，要直接给出 $\mu$ 的显式取值范围不容易，更多时候我们只会将一个既定的 $\mu_0$ 代入，检查它是否位于置信椭球内。很明显，要给出显式的取值范围，还是一维数值比较方便。那么，我们能否给出 $\mu$ 的每个分量的置信度为 $\alpha$ 的置信区间呢？

统一讨论，我们可以讨论 $\mu$ 的分量的线性组合 $a'\mu$ 的置信区间，这里 $a$ 是一个 $p$ 维列向量。之后要求解每一个分量 $\mu_i$ ，只需要取分别 $a=e_i$ 即可。讨论 $a'\mu$ ，最直接的想法还是 $a'\bar X$ ，我们令 $Y_{(\alpha)}=a'X_{(\alpha)}$ ，这样每一个 $Y_{(\alpha)}$ 都是一维的随机变量，且 $Y_{(\alpha)}\sim N(a'\mu, a'\Sigma a)$ ，我们就可以使用一元统计的方法，用 $\bar Y$ 来估计 $a'\mu$ 。当 $\Sigma$ 未知时用 $S$ 作为估计量，得到 $t$ 统计量为
$t=\frac{\bar Y-a'\mu}{\sqrt{a'Sa/n}}=\frac{\sqrt n(a'\bar X-a'\mu)}{\sqrt{a'Sa}}.$
这样得到的置信区间为
$a'\mu \in \left[a'\bar X-t_{\alpha/2}\frac{\sqrt{a'Sa}}{\sqrt n},a'\bar X+t_{\alpha/2}\frac{\sqrt {a'Xa}}{\sqrt n} \right],{\rm P}\{|t(n-1)|\le t_{\alpha/2} \}=1-\alpha.$
取定 $a=e_i$ ，就得到了各个分量的置信区间。但有一个问题，如果每一个分量的置信水平都是 $1-\alpha$ ，则最终得到的置信域置信水平将低于 $1-\alpha$ ——这很好理解，如果有一个分量取到了置信区间的边界，就说明 $\mu$ 的置信水平已经到达了边界；而如果又有一个分量也取到置信区间的边界，此时可信度已经明显低于 $1-\alpha$ ，但依然位于置信域内。也就是说，这种方法扩大了置信区间的范围，减小了精度。如果要求的是置信水平为 $1-\alpha$ 的置信域且各分量独立，应当对每一个分量控制置信水平为 $(1-\alpha)^{1/p}$ ；如果分量是不独立的，就控制每一个分量的置信水平为 $(1-\alpha/p)$ ，这样总的置信水平将不小于 $1-\alpha$ 。

统计量 $t$ 的值随着 $a$ 的变化而变化，我们想找到一个统计量适用于所有的 $a$ 。现在将统计量改为
$t^2=\frac{na'(\bar X-\mu)}{a'Sa},$
有定理保证 $t^2\le n(\bar X-\mu)'S^{-1}(\bar X-\mu)\stackrel {\rm d}=T^2$ ，这里不等式右边为一个与 $a$ 无关的数，因此，这样构造出来的置信区间是最大置信区间。我们知道 $T^2\sim T^2(p,n-1)$ ，所以
$\frac{n-p}{(n-1)p}T^2\sim F(p,n-p).$
找到 $F (p, n - p)$ 的上侧 $\alpha$ 分位数，则有
$\frac{n-p}{(n-1)p}T^2\le F_{\alpha}\Leftrightarrow t^2\le T^2\le \frac{(n-1)pF_\alpha}{n-p},$
从上式解出 $a'\mu$ 的最大置信区间为
$a'\mu \in \left[ a'\bar X-\sqrt{\frac{(n-1)pF_\alpha}{n-p}\frac{a'Sa}n}, a'\bar X+\sqrt{\frac{(n-1)pF_\alpha}{n-p}\frac{a'Sa}n} \right].$
在这个式子中取 $a=e_i$ ，会得到比按照 $t$ 分布更宽松的置信区间，我们将这个置信区间称为 $T^2$ 区间。

3.假设检验——似然比检验

在均值的区间估计中，我们已经提到了均值的假设检验，现在先提出一种通用的假设检验方法——似然比检验，它与一元统计中的似然比检验类似。设 $p$ 元总体的密度函数为 $f(x,\theta)$ ，这里 $\theta\in \Theta$ ，设 $\Theta_0$ 是 $\Theta$ 的子集，需要检验的假设是
$H_0:\theta \in\Theta_0\Leftrightarrow H_1:\theta \notin \Theta_0,$
将样本的似然函数记作 $L(\theta;X)=\prod_{i=1}^n f(x_{(i)};\theta)$ ，其对数称为对数似然函数，则似然比统计量记作
$\lambda =\frac{\max _{\theta\in\Theta_0}L(\theta ;X)}{\max _{\theta \in\Theta}L(\theta ;X)}\in[0,1].$
由式子的表示直观地看，如果 $\theta \in\Theta_0$ ，则分子会更大，分母不变，所以 $\lambda$ 越大越应该接受 $H_0$ 。要获得假设的显著性水平，就要获得 $\lambda$ 的抽样分布，最好是精确分布。但很多时候精确分布是不易获得的，当样本量很大且满足一定的正则条件时，我们可以使用如下的近似：
$-2\ln \lambda \sim \chi^2(f),\quad f\stackrel {\rm d}=\dim\Theta-\dim \Theta_0.$
使用似然比检验的难点，在于找到使似然函数（或对数似然）最大的参数估计 $\hat\theta$ ，在一元统计中一般使用求偏导的方法，而在多元统计中，可能需要使用矩阵微商。

回顾总结

求正态总体均值的置信椭球，需要构造 $T^2=n(\bar X-\mu)S^{-1}(\bar X-\mu)$ ，运用 $T^2$ 分布与 $F$ 分布的联系找出分位数 $F_\alpha(p,n-p)$ ，最终得到的置信椭球为 $T^2<\frac{(n-1)p}{n-p}F_\alpha$ 。置信椭球可以用来进行假设检验。
求正态总体均值的联立置信区间，有两种，一种是对每个分量直接求，为
$a'\bar X-t_{\alpha/2}\sqrt{\frac{a'Sa}{n}}\le a'\mu \le a'\bar X+t_{\alpha/2}\sqrt{\frac{a'Sa}{n}},$
另一种是其最大置信区间，也称为 $T^2$ 区间，为
$a'\bar X-c\sqrt{\frac{a'Sa}{n}}\le a'\mu \le a'\bar X+c\sqrt{\frac{a'Sa}{n}},\quad c=\sqrt{\frac{(n-1)pF_{\alpha}(p,n-p)}{n-p}}.$
两种方式得到的联立置信区间得到的置信域，置信水平都比 $1-\alpha$ 低；要得到置信水平为 $1-\alpha$ 的置信域，需要对每个分量求置信水平为 $1-\alpha/p$ （不独立）或 $(1-\alpha)^{1/p}$ （独立）的置信区间。
似然比检验指的是对于假设检验问题 $H_0:\theta \in\Theta_0\Leftrightarrow H_1:\theta\notin\Theta_0$ ，构造一个检验统计量为
$\lambda=\frac{\max_{\theta \in\Theta_0)}L(\theta ;X)}{\max_{\theta \in\Theta}L(\theta ;X)}.$
\frac{\max_{\theta \in\Theta_0)}L(\theta ;X)}{\max_{\theta \in\Theta}L(\theta ;X)}.
$$
当 $n\to \infty$ 时， $-2\ln \lambda \sim \chi^2(f),f=\dim \Theta-\dim \Theta_0$ 。