【多元统计分析】07.均值的假设检验

最新推荐文章于 2023-09-22 21:42:44 发布

江景页

最新推荐文章于 2023-09-22 21:42:44 发布

阅读量6.1k

点赞数 3

分类专栏：《多元统计分析》学习笔记文章标签：多元统计分析假设检验均值

本文链接：https://blog.csdn.net/jingye333/article/details/109325297

版权

《多元统计分析》学习笔记专栏收录该内容

19 篇文章

订阅专栏

本文探讨了单总体、双总体及多总体均值向量的假设检验方法，包括Σ已知和Σ未知的情况，并详细介绍了如何构造检验统计量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

七、均值的假设检验

七、均值的假设检验

1.单总体均值向量假设检验

本节探讨单个 $p$ 元正态总体 $N_p(\mu,\Sigma)$ 的均值假设检验问题，可以具体地细分为 $\Sigma$ 已知和 $\Sigma$ 未知的情形，当然，生活中大多的正态总体是 $\Sigma$ 未知的。我们需要检验的问题是： $H_0:\mu=\mu_0\Leftrightarrow H_1:\mu\ne \mu_0$ 。

当 $\Sigma=\Sigma_0$ 时，有 $\bar X\sim N_p(\mu,\Sigma_0/n)$ ，所以 $\sqrt n(\bar X-\mu)\sim N_p(0,\Sigma)$ ，故
$T_0^2=n(\bar X-\mu_0)'\Sigma^{-1} (\bar X-\mu_0)\stackrel {H_0}\sim \chi^2(p).$
显然检验的拒绝域是 $\{T_0^2>\chi^2_\alpha(p)\}$ ，检验的p-value是 $p={\rm P}(T_0^2\ge d)$ ，这里 $d$ 是 $T_0^2$ 的观测值。

当 $\Sigma$ 未知时， $\bar X\sim N_p(\mu,\Sigma/n),A\sim W_p(n,\Sigma)$ ，所以
$T^2=n(\bar X-\mu_0)'S^{-1}(\bar X-\mu_0)\stackrel {H_0}\sim T^2(p,n-1),\\ \frac{n-p}{(n-1)p}T^2\sim F(p,n-p).$
于是检验的拒绝域是 $\{T^2>\frac{(n-1)p}{n-p}F_\alpha \}$ 。

如果在此基础上要检验的问题改为 $\mu$ 服从某种线性约束，就可以将检验问题改为 $H_0:C\mu=r$ ，这里 $C$ 是一个 $k\times p$ 矩阵，秩为 $k < p$ 。此时对所有的样本做线性变换 $Y_{(\alpha)}=CX_{(\alpha)}$ ，这样 $\bar Y=C\bar X\sim N_p(C\mu,\frac{C\Sigma C'}n),A_y\sim W_p(n,C\Sigma C')$ ，于是
$T^2=n(\bar Y-r)'S_y^{-1}(\bar Y-r)\stackrel {H_0}\sim T^2(k,n-1).$
类似地拒绝域是 $\{T^2>\frac{(n-1)k}{n-k}F_\alpha\}$ 。

2.双总体均值向量的假设检验

在多总体的情况下，类似一元总体，比较简单的是两个总体有相同自协方差矩阵的情形，而如果两个总体自协方差矩阵不同，则会更麻烦。设 $X_{(\alpha)}\sim N_p(\mu^{(1)},\Sigma),Y_{(\alpha)}\sim N_p(\mu^{(2)},\Sigma)$ ，样本容量分别为 $n, m$ ，检验的问题是 $H_0:\mu^{(1)}=\mu^{(2)}\Leftrightarrow H_1:\mu^{(1)}\ne \mu^{(2)}$ 。

在一元总体时，检验统计量为
$t=\frac{\bar X-\bar Y}{\sqrt{\sum_{i=1}^n (X_i-\bar X)^2+\sum_{j=1}^n(Y_i-\bar Y)^2}}\sqrt{\frac{n+m-2}{\frac 1n+\frac 1m}}\stackrel {H_0}\sim t(m+n-2).$
类似前面的处理，我们化 $t$ 为 $t^2$ ，进行如下一元到多元的推广：
$T^2=\frac{nm}{n+m}(\bar X-\bar Y)'\left(\frac{A_1+A_2}{n+m-2} \right)^{-1}(\bar X-\bar Y)\stackrel {H_0}\sim T^2(p,n+m-2).$
这里 $A_1,A_2$ 分别是两个总体的样本离差阵。接下来对此结论进行证明。

因为在假设 $H_0$ 下， $\bar X-\bar Y\sim N_p(0,(\frac 1n+\frac 1m)\Sigma)$ ，所以
$\sqrt{\frac{n+m}{nm}}(\bar X-\bar Y)\sim N_p(0,\Sigma).$
因为在假设 $H_0$ 下， $A_1\sim W_p(n-1,\Sigma),A_2\sim W_p(m-1,\Sigma)$ ，所以由Wishart分布的可加性，有
$A_1+A_2\sim W_p(n+m-2,\Sigma).$
结合以上两点，我们得到 $T^2\stackrel {H_0}\sim T^2(p,n+m-2)$ 的结论，所以
$\frac{n+m-p-1}{(n+m-2)p}T^2\sim F(p,n+m-p-1).$
于是拒绝域为
$\left\{T^2>\frac{(n+m-2)p}{n+m-p-1}F_{\alpha} \right\}.$
如果两个总体协方差阵不等，但样本容量相等，则可以构造 $Z_{(\alpha)}=X_{(\alpha)}-Y_{(\alpha)}$ 进行成对数据的等均值检测。如果两个总体甚至样本容量也不等，则要保留尽可能多的信息则会有些麻烦。课本中提到如下构造方式：
$Z_{(i)}=X_{(i)}-\sqrt{\frac nm}Y_{(i)}+\frac1{\sqrt {nm}}\sum_{j=1}^nY_{(j)}-\frac 1m\sum_{j=1}^m Y_{(j)}.$
这样构造出来的 $Z_{(i)}$ 独立同分布与 $N_p(\mu^{(1)}-\mu^{(2)},\Sigma_1+\frac nm Z_2)$ 。

3.多总体均值向量的假设检验

有 $k$ 个同方差的 $p$ 元正态总体 $N_p(\mu^{(t)},\Sigma)$ ，从第 $t$ 个总体中抽取 $n_t$ 个样本 $X_{(\alpha)}^{(1)}$ ，需要检验的假设是
$H_0:\mu^{(1)}=\cdots =\mu^{(k)}\Leftrightarrow H_1:\exist i\ne j,\mu^{(i)}\ne \mu^{(j)}.$
我们先讨论一维的情形。当 $p = 1$ 时，我们将每一个总体中的样本排在一行中，即将样本排成
$\begin{matrix} X_{(1)}^{(1)} & X_{(2)}^{(1)} & \cdots & X_{(n_1)}^{(1)},\\ X_{(1)}^{(2)} & X_{(2)}^{(2)} & \cdots & X_{(n_2)}^{(2)},\\ \cdots &\cdots&\cdots&\cdots \\ X_{(1)}^{(k)} & X_{(2)}^{(k)} & \cdots & X_{(n_k)}^{(k)}. \end{matrix}$
记 $n=\sum _{t=1}^k n_t$ ，
$\bar X=\frac 1n\sum_{t=1}^k \sum_{i=1}^{n_t} X_{(i)}^{(t)},\quad \bar X^{(t)}=\frac{1}{n_t}\sum_{i=1}^{n_t} X_{(i)}^{(t)}.$
即 $\bar X$ 是所有样本的均值， $\bar X^{(t)}$ 是从 $t$ 总体抽取的样本均值。记
${\rm SST}=\sum_{t=1}^k\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar X)^2;——总偏差平方和,\\ {\rm SSE}=\sum_{t=1}^{k}\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar X^{(t)})^2——组内偏差平方和,\\ {\rm SSA}=\sum_{t=1}^k n_t(\bar X^{(t)}-\bar X)^2——组间偏差平方和,$
则有 ${\rm SST=SSE+SSA}$ 。如果 $H_0$ 成立，则组间偏差平方和 ${\rm SSA}$ 应该很小，所以取检验统计量为
$F=\frac{{\rm SSA}/(k-1)}{{\rm SSE}/(n-k)}\stackrel {H_0}\sim F(k-1,n-k).$

引理：这里在 $H_0$ 成立的条件下，也就是所有的 $X_{(i)}^{(t)}\sim N(\mu,\sigma^2)$ ，则有：

$\dfrac{{\rm SSE}}{\sigma^2}\sim \chi^2(n-k)$ ；
$\dfrac{\rm SSA}{\sigma^2}\sim \chi^2(k-1)$ ；
${\rm SSE,SSA}$ 相互独立；
$\dfrac{\rm SST}{\sigma^2}\sim \chi^2(n-1)$ 。

自然而然得到拒绝域为 $\{F>F_\alpha\}$ ，这里 $F_\alpha$ 是 $F (k - 1, n - k)$ 的上 $\alpha$ 分位数。

而如果推广到 $p$ 元总体，则类似地可以对总离差阵进行分解，为
$T=\sum_{t=1}^k\sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar X)(X_{(i)}^{(t)}-\bar X)'=A+B,\\ A=\sum_{t=1}^k A_t=\sum_{t=1}^k \sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar X^{(t)})(X_{(i)}^{(t)}-\bar X^{(t)})',\\ B=\sum_{t=1}^k n_t(\bar X^{(t)}-\bar X)(\bar X^{(t)}-\bar X)'.$
称 $T$ 为总离差阵， $A$ 为组内离差阵， $B$ 为组间离差阵。与一元情况类似地有
$A\stackrel {H_0}\sim W_p(n-k,\Sigma),B\stackrel {H_0}\sim W_p(k-1,\Sigma),$
且 $A, B$ 相互独立，所以类似地建立统计量为
$\Lambda=\frac{|A|}{|A+B|}=\frac{|A|}{|T|}\stackrel {H_0}\sim \Lambda(p,n-k,k-1).$
这里 $n$ 是总样本数， $k$ 是总组数， $p$ 是向量维数。拒绝域就应该是 $\{\Lambda <\Lambda_\alpha\}$ ，而 $\Lambda$ 统计量可以用 $\chi^2$ 统计量或 $F$ 统计量来近似替代，即
$-r\ln \Lambda\sim \chi^2(pn_2),\quad r=n_1-\frac 12(p-n_2+1).$
但一般情况下，我们只会检验三组同均值问题，也就是 $\mu^{(1)}=\mu^{(2)}=\mu^{(3)}$ 的检验，此时 $k = 3$ ， $\Lambda$ 分布可以转化为 $F$ 统计量，即
$\Lambda(p,n-3,2):\frac{n-3-p+1}{n-3}\frac{1-\sqrt \Lambda}{\sqrt\Lambda}\sim F(2p,2(n-3-p+1)).$
所以拒绝域是 $\{F>F_\alpha\}$ ， $F_\alpha$ 是 $F (2 p, 2 (n - 3 - p + 1))$ 的上 $\alpha$ 分位数。

回顾总结

单总体 $N_p(\mu,\Sigma)$ 情况检验 $H_0:\mu=\mu_0$ ，如果 $\Sigma$ 未知，构造的检验统计量是
$T^2=n(\bar X-\mu_0)S^{-1}(\bar X-\mu_0)\stackrel {H_0}\sim T^2(p,n-1).$
如果 $\Sigma=\Sigma_0$ 已知，构造的检验统计量是
$T^2=n(\bar X-\mu_0)\Sigma_0^{-1}(\bar X-\mu_0)\stackrel {H_0}\sim T^2(p,n).$
双同方差总体 $N_p(\mu^{(1)},\Sigma),N_p(\mu^{(2)},\Sigma)$ 情况检验 $\mu^{(1)}=\mu^{(2)}$ ，构造的检验统计量是
$T^2=\frac{nm}{n+m}(\bar X-\bar Y)'\left(\frac{A_1+A_2}{n+m-2} \right)(\bar X-\bar Y)\stackrel {H_0}\sim T^2(p,n+m-2).$
如果双总体方差不同为 $N_p(\mu^{(1)},\Sigma_1),N_p(\mu^{(2)},\Sigma_2)$ ，成对数据则构造 $Z_{(\alpha)}=X_{(\alpha)}-Y_{(\alpha)}$ ，如果不是成对数据，则进行以下处理（设 $n < m$ ）
$Z_{(\alpha)}=X_{(\alpha)}-\sqrt{\frac nm}Y_{(\alpha)}+\sqrt{\frac 1{mn}}\sum_{i=1}^n Y_{(i)}-\frac 1m\sum_{i=1}^m Y_{(i)}$
得到的 $Z_{(\alpha)}$ 是相互独立，服从 $N_p(\mu_Z,\Sigma_Z)$ ，这里 $\mu_Z=\mu^{(1)}-\mu^{(2)}$ ， $\Sigma_Z=Z_1+\frac nmZ_2$ 。
多总体同方差情况，总体为 $N_p(\mu^{(t)},\Sigma),t=1,\cdots,k$ ，每个总体中抽取 $n_t$ 件样本，检验 $\mu^{(1)}=\cdots =\mu^{(k)}$ ，构造的检验统计量是
$\Lambda=\frac{|A|}{|A+B|}=\frac{|A|}{|T|}\stackrel {H_0}\sim \Lambda(p,n-k,k-1).$
这里 $n$ 为总样本容量， $A$ 是组内离差阵， $T$ 为总离差阵，若设 $\bar X$ 为总均值， $\bar X^{(t)}$ 是第 $t$ 组均值，则
$n=\sum_{t=1}^k n_t,\\ A=\sum_{t=1}^k \sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar X^{(t)})(X_{(i)}^{(t)}-\bar X^{(t)})',\\ B=\sum_{t=1}^k n_t(\bar X^{(t)}-\bar X)^2,\\ T=\sum_{t=1}^k \sum_{i=1}^{n_t}(X_{(i)}^{(t)}-\bar X)(X_{(i)}^{(t)}-\bar X)'.$
本节中常用的转换公式：
$\begin{array}l T^2(p,n-1):\dfrac{n-p}{(n-1)p}T^2\sim F(p,n-p). \\ T^2(p,n+m-2):\dfrac{n+m-1-p}{(n+m-2)p}T^2\sim F(p,n+m-1-p). \\ \Lambda(p,n-3,2):\dfrac{n-3-p+1}{n-p}\dfrac{1-\sqrt\Lambda}{\sqrt \Lambda}\sim F(2p,2(n-3-p+1)). \end{array}$