1、背景
假设某公司生产一件商品,商品的重量是一个随机变量,它服从正态分布。当机器运转正常时,其均值为0.5kg,标准差为0.015。现随机抽查9件商品,重量(单位为kg)分别 0.497, 0.508, 0.518, 0.524, 0.497, 0.516, 0.518, 0.519, 0.515,请根据这些数据判断机器运转是否正常?
这个问题我们可以使用参数估计中置信区间的知识来进行求解:
import numpy as np
mean = 0.5
std = 0.015
sample = np.array([0.497, 0.508, 0.518, 0.524, 0.497, 0.516, 0.518, 0.519, 0.515])
sample_mean = sample.mean()
se = std/np.sqrt(len(sample))
min_ = sample_mean - 2 * se
max_ = sample_mean + 2 * se
print("置信区间(95%置信度):", (min_, max_))
以上的结果如下,因为均值0.5不在置信区间范围内,我们可以判断机器不正常:
置信区间(95%置信度): (0.502, 0.522)
除了使用参数估计之外,我们还可以使用假设检验来进行求解。
2、假设检验基本概念
- 假设检验:也称为显著性检验,是通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。即我们对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设是否合理。
- 在假设检验中,我们会建立两个完全对立的假设,分别为原假设与备择假设。然后根据样本信息进行分析判断,是选择接受原假设还是拒绝原假设。
- 假设检验基于“反证法”,首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时,我们选择去维持原假设。
- 假设检验遵循“疑罪从无”原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据去证明原假设是错误的,因此,只能维持原假设。
3、P-Value与显著性水平
- 为了便于量化,我们可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率。
- 因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。我们可以设定一个阈值,这个阈值就是显著性水平(使用a)表示,通常a的取值为0.05(1-a为置信度)。当P-Value的值大于a时,支持原假设,否则,拒绝原假设。
- 假设检验与置信区间具有一定的关联性,只不过置信区间是通过正面的方式来计算总体参数可能的值。而假设检验是从反证的角度来判断,是接受原假设,还是拒绝假设。
4、假设检验的步骤
- 设置原假设和备择假设
- 设置显著性水平a(通常选择a=0.05)
- 根据问题选择假设验证的方式
- 计算统计量,并通过统计量获取P值
- 根据P值与a值,决定接受原假设还是备择假设。
5、Z检验
- Z检验用来判断样本均值是否与总体均值具有显著性差异
- Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。
- Z检验适用于:总体呈正态分布、总体方差已知、样本容量较大(> =30)的情况。
<