22.数理统计备考(4)

最新推荐文章于 2021-02-19 15:10:28 发布

江景页

最新推荐文章于 2021-02-19 15:10:28 发布

阅读量346

点赞数

分类专栏：《数理统计》学习笔记文章标签：概率论

本文链接：https://blog.csdn.net/jingye333/article/details/108543816

版权

《数理统计》学习笔记专栏收录该内容

21 篇文章 27 订阅

订阅专栏

数理统计备考(4)

第五章

本章是参数假设检验。

参数检验拥有一个原假设和一个备择假设，两个假设是互斥的，一般把等号放在原假设 $H_0$ 。一般假设检验的形式是：
$H_0:\theta\in\Theta_0\leftrightarrow H_1:\theta\in\Theta_1$
对某一个检验，会使用检验统计量，并且给定一个否定域。当检验统计量 $T$ 落入否定域 $D$ 时，就拒绝 $H_0$ 。检验函数是对此检验的一个描述，即
$\varphi(\boldsymbol x)=\left\{ \begin{array}{l} 1, &T\in D;\\ 0,&T\in \bar D. \end{array} \right.$
假设检验可能会犯两种错误：弃真错误和存伪错误，一般用弃真错误，即
$\alpha=\mathbf P(T\in D|H_0)$
来表明检验的水平。功效函数为 $\beta_\varphi (\theta)=E(\varphi(\boldsymbol x))=\mathbf P_\theta(T\in D)$ ，即在实际参数为 $\theta$ 的情况下，用检验 $\varphi$ 否定 $H_0$ 的概率。

具体的假设检验过程与区间估计有很大的相似性，即构造相应的检验统计量，使它们在 $H_0$ 成立时有着可以求分位数的分布，以确定拒绝域，再判断检验统计量是否落在拒绝域中。

似然比检验在假设检验中类似点估计里的极大似然估计，由于参数空间分为 $\Theta_0,\Theta_1$ 两部分，取 $\Theta=\Theta_0\cup\Theta_1$ ，则令似然比为
$\lambda(\boldsymbol x)=\frac{\sup \limits_{\theta\in\Theta}L(\theta;\boldsymbol x)}{\sup\limits_{\theta\in\Theta_0}L(\theta;\boldsymbol x)}\ge1$
一般来说，如果这个比值越大，则 $\Theta_0$ 中包含 $\theta$ 的概率就越小，所以当 $\lambda(\boldsymbol x)>c$ 时拒绝 $H_0$ 。但是 $\lambda(\boldsymbol x)$ 的分布一般不好求得，所以可以取一个跟 $\lambda(\boldsymbol x)$ 同增减或反增减的统计量 $T$ ，计算 $T$ 的分布从而确定临界值。

如果 $\lambda(\boldsymbol x)$ 和 $T$ 都不好求分布，则求 $\lambda(\boldsymbol x)$ 的渐进分布，一般地，如果 $\Theta$ 的维数是 $k$ ， $\Theta_0$ 的维数是 $s$ ， $k - s = t > 0$ ，则
$2\ln \lambda(\boldsymbol X)\rightarrow \chi^2_t$

检验的 $p$ 值是对检验肯定或否定力度的一个量化表示。对于单边假设检验，如果拒绝域的形式是 $T < c$ ，检验统计量 $T$ 的观察值是 $t_0$ ，则检验的 $p$ 值是
$p(t_0)=\mathbf P(T\le t_0|H_0)$
如果单边检验拒绝域的形式是 $T > c$ ，检验统计量的观察值是 $t_0$ ，则
$p(t_0)=\mathbf P(T\ge t_0|H_0)$
如果双边检验的拒绝域形式是 $T<c\text{ or }T>d$ ，检验统计量的观察值是 $t_0$ ，则
$p(t_0)=2\min \{\mathbf P(T\ge t_0|H_0), 1-\mathbf P(T\le t_0|H_0)\}$
如果 $p$ 值越小，则说明观察值出现的概率越小，则越应该拒绝 $H_0$ 。一般在 $p<\alpha$ 的情况下拒绝 $H_0$ 。

第六章

本章是非参数假设检验，包括符号检验法、符号秩和检验法、Wilcoxon符号秩和检验法、拟合优度检验、独立性与齐一性检验等内容。

符号检验法适用于检验在成对数据的情况下，两个总体均值是否一致。假设有两个总体 $X, Y$ ，让 $Z_i=X_i-Y_i$ ，剔除 $Z_i=0$ 的数据，并令 $S_i=I_{(Z_i>0)}$ ，则有
$S=\sum_{i=1}^n S_i\sim b(n,\theta)$
这里 $n$ 是 $Z_i$ 中非零的个数， $\theta$ 是 $Z_i>0$ 的概率。根据原假设，可以将 $H_0$ 分为 $\theta=1/2, \theta\ge1/2, \theta\le1/2$ 三种。

$H_0:\theta=1/2$ 的检验，拒绝域是 $S<c\text{ or }S>d$ ，计算 $p$ 值为
$p(S_0)=2\min\{\mathbf P(S\ge S_0|\theta=1/2),\mathbf P(S\le S_0|\theta=1/2)\}$
双边检验，拒绝域是 $S < c$ ， $p$ 值为 $p(S_0)=\mathbf P(S\le S_0|\theta=1/2)$ ；拒绝域是 $S > d$ ， $p$ 值为 $p(S_0)=\mathbf P(S\ge S_0|\theta=1/2)$ 。

符号秩和检验法是对符号检验法的改进，同样计算 $Z_i$ ，并从小到大排列 $Z_i|$ ，取 $R_i$ 为它们的秩，则检验统计量为
$W^+=\sum_{i=1}^n R_iI_{(Z_i>0)}$

对于双边检验问题 $H_0:\theta=1/2$ ， $W^+$ 应该不大不小，所以检验的否定域是 $\{W^+\le d\text{ or } W^+\ge c\}$ ，确定方式为 $\mathbf P(W^+\ge c|\theta=1/2)\le \alpha/2$ ， $d=\frac{n(n+1)}2-c$ 。
对于单边检验问题，否定域类似为单边的。

在 $\theta=1/2$ 的情况下， $P(W^+\ge c)\le \alpha/2$ 的值可以通过查表得出。具体方法是，先计算 $W^+$ 的值，然后根据 $n,\alpha$ 查表得到 $W^+$ 的临界值；双边检测则需要根据 $n,\alpha/2$ 查询 $W^+$ 的临界值，然后通过 $d = n (n + 1) / 2 - c$ 计算另一边的临界值。

Wilcoxon两样本秩和检验在基本假设 $F_2(x)=F_1(x-\theta)$ 下，检验 $\theta$ 的情况。为此，需要将两个样本的观测值从小到大排列，假设 $n < m$ ，则将 $n$ 个样本的秩加起来，记作 $W_n$ 。

在双边检验 $\theta=0$ 的情况下， $W_n$ 不该过大也不该过小，所以拒绝域是 $W_n\le d$ 或 $W_n\ge c$ ，这里 $d = n (n + m + 1) - c$ 。

如果是单边检验，则 $W_n$ 不应该过小或者不应该过大，拒绝域根据 $\theta$ 的情况而定，但操作方法与符号秩和检验类似。

具体的操作为，取样本容量小的那一组样本计算秩和，根据 $n,m,\alpha$ 查询临界值；如果是双边检验则根据 $n,m,\alpha/2$ 查询，并有 $d = n (n + m + 1) - c$ 。然后计算拒绝域并判断是否需要拒绝 $H_0$ 。

Pearson $\chi^2$ 拟合优度检验主要适用于理论分布是离散的情形，如概率分布列为
$\left( \begin{array}{l} a_1&a_2&\cdots&a_r\\ p_1&p_2&\cdots &p_r \end{array} \right),\sum_{i=1}^r p_i=1$
若每一种情况 $a_i$ 的观察值为 $\nu_i$ ，样本容量为 $n=\sum_{i=1}^r \nu_i$ ，则有
$K_n=\sum_{i=1}^r\frac{(\nu_i-np_i)^2}{np_i}\sim \chi^2_{r-1}$
因此 $p$ 值为
$p(k_n)=\mathbf P(K_n\ge k_n|H_0)=\mathbf P(\chi^2_{r-1}\ge k_n)$
如果 $p(k_n)\le\alpha$ 则拒绝 $H_0$ ，认为拟合优度较差。 $p$ 值越接近1则拟合效果越好。

Pearson $\chi^2$ 检验还是和总体分布是连续的情况，此时要将数轴划分成数个小区间，让每个小区间内的样本数量都不小于5，然后就可以视作离散情形。

Pearson $\chi^2$ 检验还适用于理论分布带有未知参数的情形，此时将未知参数用极大似然估计代替，并且假设 $\theta=(\theta_1,\cdots,\theta_s)$ 。代入极大似然估计后类似计算
$K_n^*=\sum_{i=1}^r\frac{(\nu_i-n\hat p_i)^2}{n\hat p_i}\rightarrow \chi^2_{r-1-s}$
这样， $p$ 值就是
$p(k_n^*)=\mathbf P(\chi^2_{r-1-s} \ge k_n^*)$

对于列联表中的独立性和齐一性检验，检验统计量都是
$K_n=n\left(\sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1\right)\rightarrow \chi^2_{(r-1)(s-1)}$
检验的 $p$ 值为
$p(k_n)=\mathbf P(\chi^2_{(r-1)(s-1)}\ge k_n)$
检验的 $p$ 值越大也即 $k_n$ 越小，越认为列联表两个维度独立/齐一； $p$ 值越小也即 $k_n$ 越大，越认为列联表两个维度不独立/齐一。

柯尔莫哥洛夫也是用于检验拟合优度的，但它更适用于分布函数连续时的拟合优度检验。

此时要检验的假设为 $H_0:F(x)=F_0(x)$ 。为此引入柯氏距离
$D_n=\sup_{x\in\R}|F_0(x)-F_n(x)|$
由格里汶科定理， $H_0$ 成立时，应该有 $\mathbf P(\lim\limits_{n\to \infty}D_n=0)=1$ ，所以 $D_n$ 值太大时就否定 $H_0$ ，拒绝域为 $D_n\ge c$ ， $p$ 值为
$p(d_n)=\mathbf P(D_n\ge d_n|H_0)$
实际使用时，要根据 $n$ 的大小查表，得到检验的临界值，从而得到检验的拒绝域。