实用统计学 : 假设检验原理

提到假设检验,95%的人心里微微一笑:这个简单,不就是比较 p-value 和显著性水平 a 嘛!结论的确如此,但是原理你能说出来么?

想要彻底弄清楚假设检验的原理,还得从抽样分布讲起。

什么是抽样分布?

假设某微信公众号累积发布了5千篇文章,这5千篇文章里有些写了7百个字,有些写了6千个字。这个微信公众号的所有文章字数分布有能是

随机从这5千篇文章中抽取100篇计算文章的平均字数 \bar{x_1} 。重复,随机再抽取100篇计算文章的平均字数 \bar{x_2}...在这个随机抽取过程中\bar{x}是一个随机变量,它本身也会有期望、标准差和概率分布。

在简单随机抽样中:

  • E(\bar{x}) = \mu
  • \delta_\bar{x} = \sqrt{\frac{N-n}{N-1}}(\frac{\delta}{\sqrt{n}})(总体 N 有限)
  • \delta_\bar{x} = \frac{\delta}{\sqrt{n}}(总体 N 无限)

简单随机样本 \bar{x} 的分布分为两种情况:

  • 总体为正态分布时,\bar{x} 的分布为正态分布
  • 总体不是正态分布时,\bar{x} 的分布近似正态分布

中心极限定理:从总体中抽取容量为 n 的简单随机样本,当样本容量很大时,样本均值\bar{x}的抽样分布近似服从正态分布。

上图的抽样分布:样本容量 n = 1000,简单随机抽样1000次

因此,抽样分布实际是样本中某一个统计量(上文中是 \bar{x} 的分布)的分布,而不是部分人以为的抽取出来的样本的分布。

抽样分布搞清楚了,才能更好的理解假设检验

什么是假设检验

假设检验就是提出假设,并检验假设是否正确。

仍然用上面的例子:假如我们知道这个公众号(数据科学与技术 read_csv) 累积发表的5千篇文章,平均每篇文章的字数是 4000,既\mu = 4000。后来写公众号的飞天面条?觉得插图片会更容易说明内容,于是开始往文章内插图,但是怀疑插入图片间接减少了每篇文章的字数。

那到底插入图片是否会影响每篇文章字数呢?我们可以先提出假设:

  • H_0 : \mu \ge 4000 插入图片不减少每篇文章字数
  • H_\alpha : \mu\lt 4000 插入图片减少了每篇文章字数

然后从插入图片的文章内抽取一部分作为样本,比如随机挑选50篇插入了图片的文章统计字数的平均值 \bar{x} = 3960

从前面抽样分布的概念里我们知道 \bar{x} \ne \mu 是一件非常正常的事情,所以抽出来的 50 篇文章平均字数小于 4000 还不足以说明插入图片会减少每篇文章的字数。

但是,如果我们知道最开始累积发布的5千篇文章\delta=200 的话,则在假设H_0成立的条件下,抽取的50篇文章的样本应该满足E(\bar{x}) = 4000\delta_\bar{x} = \frac{\delta}{\sqrt{50}}的近似正态分布。(因为50的样本量足够大,所以可以考虑直接用正态分布来表示抽样分布)

均值 4000,标准差 28.3 的正态分布

在上面的抽样分布中,我们随机选择一个样本,样本均值小于 3960 的概率约为 0.078(p-value)。也就是说约有8%的概率我们在 H_0成立的条件下,随机选择的一个样本,它的平均值小于 3960。

在这样一个概率的前提下,我们是否应该选择相信假设H_0呢?这就是仁者见仁,智者见智的问题了,也既开头提到的显著性水平 a

如果决策要求拒绝接受H_0H_0的确正确(犯错)这一事件发生的概率为5%,既\alpha=0.05。也就是说如果我们依据抽取的样本平均值为3960这个结果去选择拒绝接受H_0。在H_0成立时,我们计算的抽到低于这个样本平均值的概率应该要小于5%才可以。

但是简单的依靠 p-value < \alpha 就拒绝一个假设成立,实际应用中过于武断了,最近也有很多统计学家联名反对这种做法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值