16.第六章非参数假设检验(2)

最新推荐文章于 2023-03-08 23:19:24 发布

江景页

最新推荐文章于 2023-03-08 23:19:24 发布

阅读量716

点赞数

分类专栏：《数理统计》学习笔记文章标签：概率论

本文链接：https://blog.csdn.net/jingye333/article/details/108543643

版权

《数理统计》学习笔记专栏收录该内容

21 篇文章

订阅专栏

第六章非参数假设检验(2)

1.拟合优度检验

拟合优度，即利用总体 $X$ 中抽取的样本 $X_1,\cdots,X_n$ ，来检验 $H_0:\text{r.v. }X的分布为F$ 这一假设。然而，对于总体分布，用符号、不符合这种说法未免过于绝对，因此通常是提出一个介于0到1之间的数值来衡量拟合的优劣程度，称作拟合优度。

拟合优度一般如此定义： $p(d_0)=P(D\ge d_0|H_0)$ ，这里 $D$ 是一种样本之于给定分布的偏差，是一个统计量，有许多的定义方式； $d_0$ 就是统计量 $D$ 对于给定样本的观测值。

当理论分布完全已知的时候，可以采用Pearson $\chi^2$ 检验，它又分为几种类型。

随机变量 $X$ 为离散型，且只取有限个值 $a_1,\cdots,a_r$ 的情形。

设 $X_1,\cdots,X_n$ 为从总体 $X$ 中抽取的简单样本，理论分布为
$F:\left( \begin{array}{c} a_1&a_2&\cdots&a_r\\ p_1&p_2&\cdots&p_r \end{array} \right)$
且 $p_1,\cdots,p_r$ 已知， $\sum_{i=1}^r p_i=1$ ，检验的问题表示为
$H_0:P(X=a_i)=p_i,\quad i=1,\cdots,r$
设 $X_1,\cdots,X_n$ 中，等于 $a_i$ 的个数为 $\nu_i$ （观察频数），按照分布 $F$ 的理想情况，每一个 $a_i$ 对应的理论频数应该是 $np_i$ ，当 $n$ 充分大的时候观察频数应该趋近于理论频数，因此取检验统计量为 $\sum_{i=1}^rc_i(\nu_i/n-p_i)^2$ ，特别地，取 $c_i=n/p_i$ ，得到
$K_n=\sum_{i=1}^r \frac{(\nu_i-np_i)^2}{np_i}\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1}$
这样，当 $K_n$ 过大，具体地说就是 $K_n>\chi^2_{r-1}(\alpha)$ 时拒绝 $H_0$ 。按照前面的方式定义拟合优度，就是
$p(k_0)=\mathbf P(K_n\ge k_0|H_0)\approx\mathbf P(\chi^2_{r-1}\ge k_0)$
理论分布为任一确定分布的情形。

此时，取 $r - 1$ 个常数 $a_0=-\infty<a_1<\cdots<a_r=\infty$ ，将数轴划分成 $r$ 个子区间 $I_i=[a_{i-1},a_i)$ （负无穷处为开区间），并计算样本落在 $I_i$ 上的概率 $p_i=F(a_i)-F(a_{i-1})$ ，将其作为理论概率。这样，就转化成了理论分布为有限维离散分布的情形。
理论分布带有未知参数的情形。

这时的假设就变成 $H_0:\text{r.v. }X\sim F(x,\theta_1^0,\cdots,\theta_s^0)$ ，也就是存在这样一组参数让总体符合分布。

对上一情况直接推广，设 $p_j(\boldsymbol \theta)=\mathbf P(X\in I_j)=F(a_j;\boldsymbol \theta)-F(a_{j-1};\boldsymbol \theta)$ ，类似地可以求出
$K_n(\boldsymbol \theta)=\sum_{j=1}^r \frac{(\nu_i-np_i(\boldsymbol \theta))^2}{np_i(\boldsymbol \theta)}$
此时的 $K_n(\boldsymbol \theta)$ 由于 $\boldsymbol \theta$ 的存在还不能作为统计量，所以要对 $\boldsymbol \theta$ 作出估计，用 $\hat {\boldsymbol \theta}$ 代入 $K_n(\boldsymbol \theta)$ ，其中 $\hat {\boldsymbol \theta}$ 也由样本 $\boldsymbol X$ 使用极大似然方法估计出，并且有
$K_n(\hat {\boldsymbol \theta})\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1-s}$
这样，当 $K_n(\hat {\boldsymbol \theta})$ 过大，即 $K_n(\hat {\boldsymbol \theta})>\chi^2_{r-1-s}(\alpha)$ ，则否定原假设。拟合优度自然就是 $p(k_0^*)=\mathbf P(K_n(\hat{\boldsymbol \theta})\ge k_0^*)\approx\mathbf P(\chi^2_{r-1-s}\ge k_0^*)$ 。

2.列联表中的独立性检验

列联表主要是用于检验样本的两个属性之间是否独立的。假设总体中的每一个个体都可以按 $A, B$ 属性分类，属性 $A$ 有 $r$ 个水平，分别是 $A_1,\cdots,A_r$ ；属性 $B$ 有 $s$ 个水平 $B_1,\cdots,B_s$ ，这样，每个个体的观察结果为随机向量 $X=(X^{(1)},X^{(2)})$ ，第 $X_i$ 个个体的观察结果为 $A_{r_i},B_{s_i})$ 。一共有 $n$ 个个体，且属性为 $A_i,B_j)$ 的个体有 $n_{ij}$ 个，将数量列入表格，就做成 $r\times s$ 列联表。要验证的假设是
$H_0:X^{(1)},X^{(2)}独立$
现在将 $A$ 的水平记作 $1,\cdots,r$ ， $B$ 的水平记作 $1,\cdots,s$ 。如果记 $\mathbf P(X^{(1)}=i,X^{(2)}=j)=p_{ij}$ ，如果 $H_0$ 成立，则有
$p_{ij}=\mathbf P(X^{(1)}=i,X^{(2)}=j)=\mathbf P(X^{(1)}=i)\mathbf P(X^{(2)}=j)=p_{i\cdot}p_{\cdot j}\\ p_{i\cdot}=\sum_{j=1}^sp_{ij},\quad p_{\cdot j}=\sum_{i=1}^r p_{ij}$
所以原假设 $H_0$ 转化为 $H_0:p_{ij}=p_{i\cdot}p_{\cdot j},\forall i,j$ 。此时如果将 $p_{i\cdot},p_{\cdot j}$ 视为参数，则独立的未知参数有 $s + r - 2$ 个，此时计算得 $\chi^2$ 统计量的值为
$K_n^*=n\left(\sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1\right)$
当 $H_0$ 时且 $n\to \infty$ 时，有 $K_n^*\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)}$ ，如果两个属性独立则 $K_n^*$ 不应该过大。如果 $K_n^*>\chi^2_{(r-1)(s-1)}(\alpha)$ 则否定假设，否则接受。检验的拟合优度是
$p(k_0)=\mathbf P(K_n^*\ge k_0|H_0)\approx\mathbf P(\chi^2_{(r-1)(s-1)}\ge k_0)$
特别地当 $r = s = 2$ 时，
$K_n^*=\frac{n(n_{11}n_{22}-n_{12}n_{21})^2}{n_{1\cdot}n_{2\cdot}n_{\cdot1}n_{\cdot 2}}\stackrel{\mathscr L}{\longrightarrow }\chi^2_1$

3.列联表中的齐一性检验

设有 $r$ 个生产同一产品的工厂，生产 $s$ 个不同等级的产品，第 $i$ 个工厂的 $j$ 等品率为 $p_i(j)$ ，现在从第 $i$ 个工厂取出 $n_{i\cdot}$ 个产品，记录 $j$ 等品 $n_{ij}$ 个。齐一性检验检验的是 $r$ 个工厂产品质量相同，即
$H_0:p_1(j)=p_2(j)=\cdots=p_r(j),j=1,2,\cdots,s$
如果分布是完全已知的，即 $p_1(j)=\cdots p_r(j)=p_j^0$ ，且 $p_1^0,\cdots,p_s^0$ 均已知且和为1，此时
$K=K_n=\sum_{i=1}^r\sum_{j=1}^s\frac{(n_{ij}-n_{i\cdot }p_j^0)^2}{n_{i\cdot }p_j^0}$
当 $H_0$ 成立时，有 $K_n\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(s-1)r}$ 。

如果分布未知，则
$K_n^*=n\left( \sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1 \right)\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)}$
齐一性检验与独立性检验的区别，就在于 $n_{i\cdot}$ 是事先给定的，没有随机性；而独立性检验中 $n_{i\cdot}$ 是随机变量。但在独立性检验中成立的结论在齐一性检验中依然适用。

4.柯尔莫哥洛夫检验

对于拟合优度检验，Pearson $\chi^2$ 检验虽然适用于任何总体分布，但当理论分布是连续分布时，柯尔莫哥洛夫检验效果更好。

要检验如下假设 $H_0:F(x)=F_0(x)$ ，则从样本出发得到经验分布函数记作 $F_n(x)$ ，定义柯氏距离
$D_n=\sup_{-\infty<x<+\infty}|F_n(x)-F_0(x)|$
为检验统计量，由格里汶科定理，当 $H_0$ 成立时有 $\mathbf P(\lim \limits_{n\to\infty}D_n=0)=1$ ，也就是说 $D_n$ 值过大时，倾向于否定假设 $H_0$ ，拟合优度的计算公式是 $p(D_0)=\mathbf P(D\ge D_0|H_0)$ 。需要确定一个常数，使得 $p(D_{n,\alpha})=\alpha$ ，这个常数就是 $D_n$ 的临界值。当 $n$ 较小时， $D_{n,\alpha}$ 的值可以由查表求出。

$D_{n,\alpha}$ 表格的制定依据是柯尔莫哥洛夫证明的极限定理：如果理论分布 $F_0(x)$ 在 $\mathbf R$ 上处处连续，则原假设成立时有
$\lim_{n\to \infty}\mathbf P\left(D_n\le \frac{\lambda }{\sqrt n}\right)=K(\lambda)= \left\{ \begin{array}l \sum \limits_{k=-\infty}^\infty(-1)^ke^{-2k^2\lambda^2},&\lambda>0\\ 0,&\lambda \le 0 \end{array} \right.$