一、定义与原理
通俗来说,假设检验就是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。
在一定的统计假设的前提下,如果发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设,即“小概率事件原理”,亦即小概率事件在我们日常观察中一般是不会发生的。
二、假设检验中的假设
由定义可知,我们需要对结果进行假设,然后拿样本数据去验证这个假设。所以做假设检验时会设置两个假设:
一种叫原假设,也叫零假设,用 H 0 H_0 H0表示。原假设一般是统计者想要拒绝的假设。另外一种叫备择假设,用 H 1 H_1 H1表示。备则假设是统计者想要接受的假设。
为什么统计者想要拒绝的假设放在原假设呢?因为原假设被拒绝如果出错的话,只能犯第I类错误,而犯第I类错误的概率已经被规定的显著性水平所控制。
三、“拒真”、“纳伪”错误
我们通过样本数据来判断总体参数的假设是否成立,但样本是随机的,因而有可能出现小概率的错误。这种错误分两种,一种是“拒真”错误,另一种是“纳伪”错误。
“拒真”错误也叫第I类错误:它是指原假设实际上是真的,但通过样本估计总体后,拒绝了原假设。
“纳伪”错误也叫第II类错误:它是指原假设实际上假的,但通过样本估计总体后,接受了原假设。
为什么应该尽量避免第一类错误?第一类错误是可以通过显著性水平来控制的,意味着
H
0
H_0
H0是受到保护的,也就是说
H
0
H_0
H0,
H
1
H_1
H1的地位不对等。
该如何选取呢?选取合适的
H
0
H_0
H0,
H
1
H_1
H1使得两类错误中后果严重的错误为第一类错误;如果两类错误中,没有一类错误的后果严重、需要避免时,常常取原假设为维持现状,即取
H
0
H_0
H0为“无效益”,“无改进”。实际上我们感兴趣的是“提高效益”,但对采用新技术应持谨慎态度,一旦原假设被拒绝,表示有较强的理由去采用新技术。
四、显著性水平
显著性水平是指当原假设实际上正确时,检验统计量落在拒绝域的概率,简单理解就是犯“拒真”错误的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。
显著性水平越低,就表示原假设越难被推翻,假设检验越保守。显著性水平越高,就表示原假设越容易被否定,假设检验越激进。
如果
p
≤
α
p\le \alpha
p≤α,也就是小概率事件发生了,那么我们认为这是不正常的,因为样本是简单随机样本,我们随机取一组样本就发生了,天下没有那么凑巧的事,所以我们就认为假设错误,于是拒绝原假设。
五、检验方式
检验方式分为两种:双侧检验和单侧检验。单侧检验又分为两种:左侧检验和右侧检验。
六、检验统计量
据以对原假设和备择假设作出决策的某个样本统计量,称为检验统计量。
七、拒绝域
拒绝域是由显著性水平围成的区域。
拒绝域的功能主要用来判断假设检验是否拒绝原假设的。如果样本观测计算出来的检验统计量的具体数值落在拒绝域内,就拒绝原假设,否则不拒绝原假设。
八、假设检验步骤
- 提出原假设与备择假设
- 从所研究总体中出抽取一个随机样本
- 构造检验统计量
- 根据显著性水平确定拒绝域临界值
- 计算检验统计量与临界值进行比较