假设检验、显著性水平、P值、Z值的理解

达致

已于 2024-10-23 13:57:47 修改

阅读量4.1w

点赞数 30

文章标签：人工智能

于 2022-03-19 16:21:57 首次发布

本文链接：https://blog.csdn.net/weixin_41558411/article/details/123597002

版权

一、什么是假设检验

假设检验(hypothesis testing)，又称统计假设检验，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法，也是一种最基本的统计推断形式，其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。

一般来说会将想要拒绝的假设设为原假设或零假设H0，想要接受的假设为备择假设H1，如何设计原假设以及备择假设可以参考文献1。
假设检验可以分为两大类：

单侧检验：包括左侧检验，右侧检验，比如检验男生平均身高是否大于女生。

双侧检验：两边都需要检验，比如男生身高是否等于女生。

二、弃真错误、取伪错误

我们通过样本数据来判断总体参数的假设是否成立，但样本是随机的，因而有可能出现小概率的错误。这种错误分两种，一种是弃真错误，另一种是取伪错误。

弃真错误也叫第I类错误或α错误：它是指原假设实际上是真的，但通过样本估计总体后，拒绝了原假设。明显这是错误的，我们拒绝了真实的原假设，所以叫弃真错误，这个错误的概率我们记为α。这个值也是显著性水平，在假设检验之前我们会规定这个概率的大小。

取伪错误也叫第II类错误或β错误：它是指原假设实际上假的，但通过样本估计总体后，接受了原假设。明显者是错误的，我们接受的原假设实际上是假的，所以叫取伪错误，这个错误的概率我们记为β。

根据以上描述，我们大概可以推出原假设一般设为想要被拒绝的假设。假如原假设备被拒绝，如果出错的话，只能犯弃真错误，而犯弃真错误的概率已经被规定的显著性水平所控制了。这样对统计者来说更容易控制，将错误影响降到最小。

三、显著性水平 $\alpha$ 、 $p$ 值、 $z$ 值、置信区间、置信度的含义

置信水平(置信度)是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。
比如小明声称他这次期末考试的总分数有95%的概率在600至650之间，这里的置信度就是95%，置信区间就是[600,650]

$P$ 值是用来判定假设检验结果的一个参数，也可以根据不同的分布使用分布的拒绝域进行比较。由R·A·Fisher首先提出。
$P$ 值（P-value）就是当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率。如果 $P$ 值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设， $P$ 值越小，我们拒绝原假设的理由越充分。总之， $P$ 值越小，表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。

$Z$ 值代表随机变量经过列维-林德伯格中心极限定理的变形后，服从标准正态分布Φ（0,1），并且Z为该标准正态分布下的新变量。在数量上表示该新变量为该标准正态分布下标准差σ=1的倍数。

通过一个例子，来阐述 $P$ 值， $Z$ 值以及显著性水平的统计含义。设在机器正常情况下，生产出的样本长度均值为 $u_{0}$ ，某个批次的样本均值为 $\overline{x}$ ，在显著性水平为 $\alpha$ 时，现在我们要判断机器是否出了问题。我们构造一个中间量

$=\frac {\overline{x} - u_0} {\sigma} ～ N(0,1)$

假设机器正常，那么 $z$ 应该服从均值为0，标准差为1的标准正态分布，其中 $\sigma$ 为总体标准差。但绝大部分情况下，我们只拥有部分样本，因而需要用样本标准差去近似总体标准差。需要注意的是样本标准差公式的分母是n-1，即 $\sqrt{\sum\left(x_i-\bar{x}\right)^2/(n-1)}$ ;而不是总体标准差公式的n；因为拥有的样本量少，很有可能把极端的数据排除在外，导致一般样本的标准差都会小于总体，因此特地除以n-1来纠正。
我们将 $\overline{x}$ 带入上式，求得 $Z$ 值，记为 $\overline{Z}$ 。

假设 $\overline{x}<u_{0}$ ，此时P值为：
$P_{value} = P(z<=\overline{Z}|原假设成立)$ 。

现在我们有两种方法来计算是否应该拒绝原假设：

比较 $P_{value}$ 同"显著性水平"的大小，注意该例子中，是双侧检验，因为无论是超过或者小于均值的一定范围，我们都认为是不正常的。所以将会比较 $P_{value}$ 同 $\alpha/2$ 的大小，如果是单侧检测，则将比较 $P_{value}$ 同 $\alpha$ 的大小。
比较显著性水平下对应的 $Z$ 值同 $\overline{Z}$ 大小，假如 $｜\overline{Z}｜$ 大于 $Z$ ，那么我们将拒绝原假设，否则，将不拒绝原假设。
下面是不同显著性水平对应的Z值

当显著水平a=0.05时，进行双侧检验的Z值为1.96。

当显著水平a=0.01时，进行双侧检验的Z值为2.58。

当显著水平a=0.05时，进行单侧检验的Z值为1.645。

当显著水平a=0.01时，进行单侧检验的Z值为2.33。

假如说原假设是真的，那么大约有最多会有0.05的概率，统计到的样本的均值落在拒绝域。因此当原假设成立的情况下，犯第一类错误的概率最多就为0.05，因此当 $u$ 落在其它区域时，我们将没有显著的理由拒绝原假设。从这也可以看出，假设检验其实是在检验当原假设成立，当前事件发生的概率，如果它发生的概率特征特别小，那么我们有更大的理由反推原假设不成立，即选择备择假设。

四、原假设同备择假设是否可以互换

在实际使用假设检验时，合理的设置原假设同备择假设是非常重要的，假如我们将原假设同备择假设换一下，看会发生什么情况。前面说过，我们一般会将倾向于接受的假设放在备择假设。依然以上一个例子为例，假如我们更倾向于机器坏了，此时我们提出如下的假设：

原假设：机器坏了；
备择假设：机器没坏。
显著性水平：0.05。

依然假设当前生产出的样本的均值为 $\overline{x}$ ，然而此时，我们没有办法将该样本均值转换成标准正态分布，因为我们并不知道机器坏了时，它生产出的样本均值分布。因而也就没法求 $\overline{x}$ 是落在了拒绝域还是接受域，也就没有办法是否应该接受原假设。

这里在给出另外一种更加直观的解释，注意前面说过，即使检验结果不显著，我们也不能说接受原假设，只能说没有显著的理由拒绝原假设。假设我们知道了机器坏了时的样本均值分布，如果结果显著，那么我们将会拒绝H0，即认为机器没坏，如果结果不显著，那么我们也不能接受H0，因此，无论如何，都不能达到我们认为机器坏了的目的。
综上，原假设同备择假设是不能随意调换。

[1]教你两招快速确定原假设和备择假设 - 应用统计索瑜老师的文章 - 知乎

[2]数据分析学习之Python-假设检验（A/B测试）

[3]百度百科——P值

[4]百度百科——假设检验

[5]假设检验中的P值