参考资料:电子工业出版社的《深入浅出统计学》
前言
利用样本检验各种统计断言是否可能属实,通过假设检验可以权衡证据,检验极限结果,判断断言的产生是纯属巧合还是存在其他内在根据,从而可以更加客观得看出事物的本质。
本篇目录
具体内容
某公司出品一种号称两周治愈90%的打鼾患者的药品,但某医生通过15个样本的统计发现其效力并没有达到这种程度,此时到底是谁的结论是正确的,医生可能抽取的样本存在偏倚。
一、假设检验的步骤
1、确定假设
设置认同的原假设
H
0
H_0
H0:该药品能在两周内治愈90%的患者,即
H
0
:
p
=
0.9
H_0:p=0.9
H0:p=0.9。
设置与原假设对立的备择假设
H
1
H_1
H1:该药品在两周内只能治愈低于90%的患者,即
H
1
:
p
<
0.9
H_1:p<0.9
H1:p<0.9。
2、选择检验统计量
如果用X表示样本人数,就可以将X作为检验统计量。样本中共有15名患者,而根据只要公司的说法,成功概率为0.9,因此可推出X符合二项分布,即 X ∼ B ( 15 , 0.9 ) X \sim B(15,0.9) X∼B(15,0.9)。
3、确定拒绝域
如果鼻鼾患者的治愈人数位于拒绝域内,我们就说有足够的证据可以反驳原假设;如果鼻鼾患者的治愈人数位于拒绝域之外,我就承认没有足够的证据可以反驳原假设,并接受原假设的断言,其中拒绝域的分界点,我们称作临界值c。
而为了求出假设检验的拒绝域或临界值c,我们需要先定下显著性水平
α
\alpha
α,它的值代表着希望在样本结果的不可能程度达到多大时就拒绝原假设
H
0
H_0
H0。比如假设我们以5%作为显著性水平检验制药公司的断言,这说明我们选取的拒绝域应使得“鼻鼾患者治愈人数小于c”的概率小于0.05,即概率分布最低端的5%部分。
4、求出P值
利用样本进行P值的计算,根据其结果来判定样本结果是否落在假设检验的拒绝域以内,也就是说根据P值来确定是否该拒绝原假设。比如医生抽样的15名样本中只有11个痊愈,这时我们应该求 P ( X ≤ 11 ) P(X \leq 11) P(X≤11)的值。
5、判断样本结果是否位于拒绝域中
当显著性水平为5%时,若
P
(
X
≤
11
)
<
0.05
P(X \leq 11)<0.05
P(X≤11)<0.05的话,表示数值11落在拒绝域中,这时我们可以拒绝原假设。
6、作出决策
值得指出的是,在研究实际拥有的证据之前,必须根据所需要的证据水平决定所需要的检验水平。因为如果先看证据是否充分再确定检验水平,这会摄入主观的因素来选定特定的检验级别,导致检验结果发生偏倚,从而做出错误决策。
二、假设检验计算的进阶
学会近似分布的选择并随后使用该近似分布来计算,从而减少计算量。比如当样本量达到100名后,考虑用正态分布来近似二项分布,如
X
−
90
3
∼
N
(
0
,
1
)
⟺
X
∼
N
(
90
,
9
)
⟺
X
∼
B
(
100
,
0.9
)
\frac{X-90}{3}\sim N(0,1) \iff X\sim N(90,9) \iff X\sim B(100,0.9)
3X−90∼N(0,1)⟺X∼N(90,9)⟺X∼B(100,0.9)。
三、第一类错误
第一类错误即在原假设实际为正确的情况下拒绝原假设的后果。如果发生第一类错误,那么一定是拒绝了原假设,而拒绝原假设的前提是样本结果必须位于拒绝域之内,因此
P
(
发
生
第
一
类
错
误
)
=
α
P(发生第一类错误)=\alpha
P(发生第一类错误)=α。
四、第二类错误
第二类错误是当原假设实际为错误假设时反而接受了它的后果,其
P
(
发
生
第
二
类
错
误
)
=
β
P(发生第二类错误)=\beta
P(发生第二类错误)=β,其中参数的计算方法如下。
在计算第二类错误的概率时需要先满足一个必要条件——备择假设具有唯一特定值。比如我们的假设应该为