实用统计学 : 假设检验原理

最新推荐文章于 2021-10-11 19:01:16 发布

weixin_34390105

最新推荐文章于 2021-10-11 19:01:16 发布

阅读量219

点赞数

原文链接：https://juejin.im/post/5c9f2b526fb9a05e444f27d5

版权

提到假设检验，95%的人心里微微一笑：这个简单，不就是比较 p-value 和显著性水平嘛！结论的确如此，但是原理你能说出来么？

想要彻底弄清楚假设检验的原理，还得从抽样分布讲起。

什么是抽样分布？

假设某微信公众号累积发布了5千篇文章，这5千篇文章里有些写了7百个字，有些写了6千个字。这个微信公众号的所有文章字数分布有能是

随机从这5千篇文章中抽取100篇计算文章的平均字数 $\bar{x_1}$ 。重复，随机再抽取100篇计算文章的平均字数 $\bar{x_2}$ ...在这个随机抽取过程中 $\bar{x}$ 是一个随机变量，它本身也会有期望、标准差和概率分布。

在简单随机抽样中:

$E(\bar{x}) = \mu$
$\delta_\bar{x} = \sqrt{\frac{N-n}{N-1}}(\frac{\delta}{\sqrt{n}})$ (总体有限)
$\delta_\bar{x} = \frac{\delta}{\sqrt{n}}$ (总体无限)

简单随机样本 $\bar{x}$ 的分布分为两种情况：

总体为正态分布时， $\bar{x}$ 的分布为正态分布
总体不是正态分布时， $\bar{x}$ 的分布近似正态分布

中心极限定理：从总体中抽取容量为 n 的简单随机样本，当样本容量很大时，样本均值 $\bar{x}$ 的抽样分布近似服从正态分布。

上图的抽样分布：样本容量 n = 1000,简单随机抽样1000次

因此，抽样分布实际是样本中某一个统计量（上文中是 $\bar{x}$ 的分布）的分布，而不是部分人以为的抽取出来的样本的分布。

抽样分布搞清楚了，才能更好的理解假设检验

什么是假设检验

假设检验就是提出假设，并检验假设是否正确。

仍然用上面的例子：假如我们知道这个公众号（数据科学与技术 read_csv）累积发表的5千篇文章，平均每篇文章的字数是 4000，既 $\mu = 4000$ 。后来写公众号的飞天面条?觉得插图片会更容易说明内容，于是开始往文章内插图，但是怀疑插入图片间接减少了每篇文章的字数。

那到底插入图片是否会影响每篇文章字数呢？我们可以先提出假设：

$H_0 : \mu \ge 4000$ 插入图片不减少每篇文章字数
$H_\alpha : \mu\lt 4000$ 插入图片减少了每篇文章字数

然后从插入图片的文章内抽取一部分作为样本，比如随机挑选50篇插入了图片的文章统计字数的平均值 $\bar{x} = 3960$ 。

从前面抽样分布的概念里我们知道 $\bar{x} \ne \mu$ 是一件非常正常的事情，所以抽出来的 50 篇文章平均字数小于 4000 还不足以说明插入图片会减少每篇文章的字数。

但是，如果我们知道最开始累积发布的5千篇文章 $\delta=200$ 的话，则在假设 H_0 成立的条件下，抽取的50篇文章的样本应该满足 $E(\bar{x}) = 4000$ ， $\delta_\bar{x} = \frac{\delta}{\sqrt{50}}$ 的近似正态分布。（因为50的样本量足够大，所以可以考虑直接用正态分布来表示抽样分布）