python数据分析之假设检验实践_python假设检验是否有差异-CSDN博客

本文链接：https://blog.csdn.net/weixin_42384784/article/details/105590927

本文介绍了使用Python进行数据分析时的假设检验，包括基本概念、P-Value与显著性水平、Z检验和t检验的应用，以及双边检验和单边检验的区别。通过实例展示了如何判断机器运转是否正常以及鸢尾花花萼长度的假设检验。

摘要由CSDN通过智能技术生成

文章目录

1、背景

假设某公司生产一件商品，商品的重量是一个随机变量，它服从正态分布。当机器运转正常时，其均值为0.5kg，标准差为0.015。现随机抽查9件商品，重量（单位为kg）分别 0.497, 0.508, 0.518, 0.524, 0.497, 0.516, 0.518, 0.519, 0.515，请根据这些数据判断机器运转是否正常？

这个问题我们可以使用参数估计中置信区间的知识来进行求解：

import numpy as np

mean = 0.5
std = 0.015
sample = np.array([0.497, 0.508, 0.518, 0.524, 0.497, 0.516, 0.518, 0.519, 0.515])
sample_mean = sample.mean()
se = std/np.sqrt(len(sample))

min_ = sample_mean - 2 * se
max_ = sample_mean + 2 * se
print("置信区间（95%置信度）：", (min_, max_))

以上的结果如下，因为均值0.5不在置信区间范围内，我们可以判断机器不正常：

置信区间（95%置信度）： (0.502, 0.522)

除了使用参数估计之外，我们还可以使用假设检验来进行求解。

2、假设检验基本概念

假设检验：也称为显著性检验，是通过样本的统计量，来判断与总体参数之间是否存在差异（差异是否显著）。即我们对总体参数进行一定的假设，然后通过收集到的数据，来验证我们之前作出的假设是否合理。
在假设检验中，我们会建立两个完全对立的假设，分别为原假设与备择假设。然后根据样本信息进行分析判断，是选择接受原假设还是拒绝原假设。
假设检验基于“反证法”，首先，我们会假设原假设为真，如果在此基础上，得出了违反逻辑与常理的结论，则表明原假设是错误的，我们就接受备择假设。否则，我们就没有充分的理由推翻原假设，此时，我们选择去维持原假设。
假设检验遵循“疑罪从无”原则，接受原假设，并不代表原假设一定是正确的，只是我们没有充分的证据去证明原假设是错误的，因此，只能维持原假设。

3、P-Value与显著性水平

为了便于量化，我们可以计算一个概率值（P-Value），该概率值可以认为就是支持原假设的概率。
因为在假设检验中，通常原假设为等值假设，因此，P-Value也就表示样本统计量与总体参数无差异的概率。我们可以设定一个阈值，这个阈值就是显著性水平（使用a）表示，通常a的取值为0.05（1-a为置信度）。当P-Value的值大于a时，支持原假设，否则，拒绝原假设。
假设检验与置信区间具有一定的关联性，只不过置信区间是通过正面的方式来计算总体参数可能的值。而假设检验是从反证的角度来判断，是接受原假设，还是拒绝假设。