不知道大家有没有注意到我每次文章最顶部的内容:
我提出的假设是:每天早上8点25更新,然后有人不相信,于是我们提出了一个方案来验证我的假设,连续10天看实验的结果是否每天早上8:25更新,这就是一个假设检验的思路,提出一个假设,然后去检验它。
假设检验是利用样本对总体进行的推断的方法。其原理是小概率反证法。即为了检验一个假设是否成立,我们先假设它成立,在原假设成立的前提下,如果出现了不合理的事件,则说明样本与总体的差异是显著的,就拒绝原假设,如果没有出现不合理的事件,就不拒绝原假设。
这里所述的不合理的事件指的就是小概率事件,通常情况下我们认为一个小概率事件基本上不会发生,如果发生了,说明它就不是一个小概率事件了,所以不能接受原假设。
假设检验的基本问题
Q:1989年某地新生儿的平均体重为3190克,1990年新生儿随机抽取100个平均体重为3210克,1990年和1989年的新生儿相比,体重有无显著差异?
首先我们要明确,这个问题的关键点在哪里,关键点是这20克的差异说明了什么?是抽样的随机性吗?为了解决这个问题,就提出了假设检验这个方法。
假设检验的流程
1. 提出假设
- 原假设:假设两个总体的均值相等。u表示1990年新生儿平均体重,u0表示1989年新生儿平均体重,那么原假设就是u=u0=3190,无显著差异
- 备则假设:H1,u不等于u0,有显著差异
2. 选择检验统计量
统计量的选择与样本量大小、总体标准差是否已知有关,后面会细分。
常用的检验统计量有z统计量、t统计量(均值和比例)和卡方统计量(方差)。
具体选择哪个统计量,主要有样本量n的大小、总体的标准差是否已知有关。
样本量较大时(n>30),可以选择z统计量,样本量较小、总体标准差已知时,也可以选择z统计量,样本量较小,总体标准差未知时,用t统计量。
3. 确定拒绝域
首先确定显著性水平α。即希望在样本结果的不可能程度达到多大时,就拒绝原假设,也就是小概率事件发生的概率,显著性水平用百分数表示。通常是5%和1%作为显著性水平。
这篇文章里我们就不去推导统计量和拒绝域是如何得出的了,对于大部分非相关专业人士来说,确实是很晦涩的,我们重点关注如何使用就好。
4. 计算P值
为了精确地反映决策的风险度(为了简化检验统计量的计算),我们可以利用P值进行决策,那么问题来了:
什么是P值?
p值是当原假设为真时样本观察结果及更极端结果出现的概率。
如果P值很小,说明这种情况发生的概率很小,如果这种情况还出现了,那么就有理由拒绝原假设。P值越小,拒绝原假设的理由就越充分。
根据选取的检验统计量计算P值,通过P值确定是否拒绝该原假设。手工计算P值是比较复杂的,好在现在都可以用Excel、Python、SPSS等工具计算。
5. 做决策
将P值和显著性水平进行比较。
- p≤α,在原假设的条件下,p在拒绝域内,