提到假设检验,95%的人心里微微一笑:这个简单,不就是比较 p-value 和显著性水平 嘛!结论的确如此,但是原理你能说出来么?
想要彻底弄清楚假设检验的原理,还得从抽样分布讲起。
什么是抽样分布?
假设某微信公众号累积发布了5千篇文章,这5千篇文章里有些写了7百个字,有些写了6千个字。这个微信公众号的所有文章字数分布有能是
随机从这5千篇文章中抽取100篇计算文章的平均字数 。重复,随机再抽取100篇计算文章的平均字数 ...在这个随机抽取过程中是一个随机变量,它本身也会有期望、标准差和概率分布。
在简单随机抽样中:
- (总体 有限)
- (总体 无限)
简单随机样本 的分布分为两种情况:
- 总体为正态分布时, 的分布为正态分布
- 总体不是正态分布时, 的分布近似正态分布
中心极限定理:从总体中抽取容量为 n 的简单随机样本,当样本容量很大时,样本均值的抽样分布近似服从正态分布。
因此,抽样分布实际是样本中某一个统计量(上文中是 的分布)的分布,而不是部分人以为的抽取出来的样本的分布。
抽样分布搞清楚了,才能更好的理解假设检验
什么是假设检验
假设检验就是提出假设,并检验假设是否正确。
仍然用上面的例子:假如我们知道这个公众号(数据科学与技术 read_csv) 累积发表的5千篇文章,平均每篇文章的字数是 4000,既。后来写公众号的飞天面条?觉得插图片会更容易说明内容,于是开始往文章内插图,但是怀疑插入图片间接减少了每篇文章的字数。
那到底插入图片是否会影响每篇文章字数呢?我们可以先提出假设:
- 插入图片不减少每篇文章字数
- 插入图片减少了每篇文章字数
然后从插入图片的文章内抽取一部分作为样本,比如随机挑选50篇插入了图片的文章统计字数的平均值 。
从前面抽样分布的概念里我们知道 是一件非常正常的事情,所以抽出来的 50 篇文章平均字数小于 4000 还不足以说明插入图片会减少每篇文章的字数。
但是,如果我们知道最开始累积发布的5千篇文章 的话,则在假设成立的条件下,抽取的50篇文章的样本应该满足,的近似正态分布。(因为50的样本量足够大,所以可以考虑直接用正态分布来表示抽样分布)
在上面的抽样分布中,我们随机选择一个样本,样本均值小于 3960 的概率约为 0.078(p-value)。也就是说约有8%的概率我们在 成立的条件下,随机选择的一个样本,它的平均值小于 3960。
在这样一个概率的前提下,我们是否应该选择相信假设呢?这就是仁者见仁,智者见智的问题了,也既开头提到的显著性水平 。
如果决策要求拒绝接受但的确正确(犯错)这一事件发生的概率为5%,既。也就是说如果我们依据抽取的样本平均值为3960这个结果去选择拒绝接受。在成立时,我们计算的抽到低于这个样本平均值的概率应该要小于5%才可以。
但是简单的依靠 p-value < 就拒绝一个假设成立,实际应用中过于武断了,最近也有很多统计学家联名反对这种做法。