一、假设检验(hypothesis testing))
我们提出一种假设,通过实验 检验假设的合理性,就是假设检验。
假设检验的原理:在一定的统计假设的前提下,如果发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设
二、P值(p-value)
我们一般认为
就可以认为假设是不正确的。
举个例子:
一个盒子里装了若干个球,盒子上面写了白球和黑球一样多,但是事实是不是这样呢?我们来做一下实验。
假设我们只能进行5次有放回的抽样去猜测是否白球黑球一样多(5个白球和5个黑球)。
我们按照要求摸了三次球,每一次都是白球,这时相信你心里已经有点怀疑白球和黑球不是一样多了,然后又继续摸,又摸了两次,还都是白球。我们更加怀疑白球黑球不是一样多。
我们打开箱子,发现果然大部分的球都是白球。
我们的判断为什么会对呢?来做个简单的概率计算,如果白球和黑球数量一样多的话,那么每次都摸到白球的概率是1/2。
连摸三次都是白球的概率是:1/2*1/2*1/2=1/8=12.5%,这种事件发生的概率已经很低。
连摸五次都是白球的概率是:1/2*1/2*1/2*1/2*1/2=1/32=3.125%,这种事件发生的概率已经极低。这就是假设检验的原理:在一定的统计假设的前提下,如果发生了小概率事件,我们就有理由怀疑假设的真实性,从而拒绝接受该假设。
小概率事件不会发生,是假设检验的前提。
在这个摸球的实验中,假设是白球与黑球数量相同,但是摸了5次都是白球,概率是3.125%属于小概率事件,因此我们拒绝假设,也就是拒绝认为白球与黑球数量相同。
最后一个问题,概率低到多少会被认为是小概率事件呢?
英国的统计学家Ronald Fisher把0.05作为小概率标准,从此小于等于0.05的概率就叫做小概率事件。
这个0.05就是p-value
三、和置信区间的关系
置信区间是用来估计参数的取值范围的 。目的是根据样本构造一个区间,然后希望这个区间可以把真值包含进去,但是并不知道这个真值是多少。
而假设检验,则是先做出假设,然后根据实验结论真值的多少,然后检验这个假设是否可能为真。
之所以觉得它们有关系,大概是因为它们都提到了0.05。
参考文章:
如何理解假设检验、P值?mp.weixin.qq.com