如何理解假设检验、P值？

BruceD_

于 2020-10-10 16:37:43 发布

阅读量2k

点赞数 4

分类专栏： DM Python

原文链接：https://mp.weixin.qq.com/s/tmlaB4nwK0EPxaAmsIVScA

版权

Python 同时被 2 个专栏收录

12 篇文章

订阅专栏

4 篇文章

订阅专栏

本文转载自微信公众号：马同学高等数学

讲概率、论统计，肯定要从抛硬币说起啊，这才是正确打开姿势嘛。

1 什么是假设检验？

你说你的硬币是公平的，也就是“花”和“字”出现的概率是差不多的。

然后，你想和我打赌，作为一个资深的理智赌徒，我怎能听信你的一面之词，我提出要检查下你的硬币到底是不是公平的，万一是两面“花”怎么办？电影里面不是经常出现这样的桥段？

在这里插入图片描述

你神色紧张，死活不让我检查，后来我们提出了折衷的方案，抛几次硬币，看看结果是不是公平的。

总共扔了两次，都是“花”朝上，虽然几率是 $0.5\times0.5=0.25$ ，但是也正常，继续扔。

总共扔了四次，也都是“花”朝上，几率是 $0.5^4=0.0625$ ，感觉有点不正常，但是万一是运气呢？继续扔。

总共扔了十次，也都是“花”朝上，那我就认为很可能你这枚硬币不是公平的。

这就是假设检验：

你提出假设：说你的硬币是公平的
我提出要检验你的假设：扔十次，看实验的结果是不是和你的假设相符

2 P值

为了完成假设检验，需要先定义一个概念：P值。我们这里就来解释什么是P值？

根据上面的描述，这里假设检验的思路就是：

假设：硬币是公平的
检验：认为假设是成立的，然后扔十次，看结果与假设是否相符

反复扔硬币应该符合二项分布（这就不解释了），也就是：

$X\sim B(n,\mu)$

其中， $n$ 代表扔硬币的次数， $\mu$ 代表“花”朝上的概率。

在我们认为硬币是公平的前提下，扔10次硬币应该符合以下分布：

$X\sim B(10,0.5)$

下图表示的就是，假如硬币是公平的情况下的分布图：

在这里插入图片描述

我扔了十次之后得到的结果是，有八次正面：

在这里插入图片描述

这个时候有个数学大佬就出来定义了一个称为 $P$ 值（p-value)的概念：

罗纳德·艾尔默·费希尔爵士（1890－1962）。

把八次正面的概率，与更极端的九次正面、十次正面的概率加起来：

得到的就是（单侧P值）：

$p-value=P(8\le X\le 10)=0.05$

其实，出现两次正面、一次正面、零次正面的概率也是很极端的：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vV0pdGxO-1602317853610)(PearsonCorrelationCoefficient.assets/640-20201010145201898.png)]

所以（双侧P值）：

$p-value=P(0\le X \le 2) + P(8 \le X \le 10)=0.1$

2.1 为什么要把更极端的情况加起来？

根据扔硬币这个例子，可能你会觉得，我知道八次正面出现不正常就行了，干嘛要把九次、十次加起来？

我觉得有这么一个现实原因，比如我要扔1000次硬币来测试假设是否正确。

扔1000次硬币用二项分布来计算很麻烦，根据中心极限定理，我们知道，可以用正态分布来近似：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aZNT6B5D-1602317853611)(PearsonCorrelationCoefficient.assets/640-20201010145201975.png)]

比如，我扔了1000次，得到了530次正面，用正态分布来计算就比较简单。

但是，对于正态分布，我没有办法算单点的概率（连续分布单点概率为0），我只能取一个区间来算极限，所以就取530、以及更极端的点组成的区间：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-be5ooU1a-1602317853613)(PearsonCorrelationCoefficient.assets/640-20201010145201963.png)]

我上面只取了单侧P值，说明下：

取单侧还是双侧，取决于你的应用
什么叫做更极端的点，也取决于你的应用

3 显著水平

总共扔10次硬币，那么是出现7次正面之后，可以认为“硬币是不公平的”，还是9次正面之后我才能确认“硬币是不公平的”，这是一个较为主观的标准。

我们一般认为

$\le 0.05$

就可以认为假设是不正确的。

0.05这个标准就是显著水平，当然选择多少作为显著水平也是主观的。

比如，上面的扔硬币的例子，如果取单侧P值，那么根据我们的计算，如果扔10次出现9次正面：

$\le X \le 10)=0.01 \le 0.05$

表示出来如下图所示：

我们可以认为刚开始的假设错的很“显著”，也就是“硬币是不公平的”。

如果扔10次出现出现8次正面：

$p-value=P(8\le X \le 10)=0.05\le 0.05$

呃，这个和我们的显著水平是一样的啊，我们也可以拒绝假设，只是没有那么“显著”了。

4 与置信区间的关系

知识要联系起来看，理解更深刻。

置信区间，目的是根据样本构造一个区间，然后希望这个区间可以把真值包含进去，但是并不知道这个真值是多少？具体可以参考如何理解 95% 置信区间？

而假设检验，则是假设真值是多少，然后检验这个假设是否可能为真。

之所以觉得它们有关系，大概是因为它们都提到了0.05。

它们之间的关系也简单，如果我们提出来的假设 $\mu_0$ 在样本 $\bar{x}$ 的置信区间内，就可以通过测试：

反之，就不能通过：

转载自微信公众号：马同学高等数学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。