python数据分析之假设检验实践

1、背景

假设某公司生产一件商品,商品的重量是一个随机变量,它服从正态分布。当机器运转正常时,其均值为0.5kg,标准差为0.015。现随机抽查9件商品,重量(单位为kg)分别 0.497, 0.508, 0.518, 0.524, 0.497, 0.516, 0.518, 0.519, 0.515,请根据这些数据判断机器运转是否正常?

这个问题我们可以使用参数估计中置信区间的知识来进行求解:

import numpy as np

mean = 0.5
std = 0.015
sample = np.array([0.497, 0.508, 0.518, 0.524, 0.497, 0.516, 0.518, 0.519, 0.515])
sample_mean = sample.mean()
se = std/np.sqrt(len(sample))

min_ = sample_mean - 2 * se
max_ = sample_mean + 2 * se
print("置信区间(95%置信度):", (min_, max_))

以上的结果如下,因为均值0.5不在置信区间范围内,我们可以判断机器不正常:

置信区间(95%置信度): (0.502, 0.522)

除了使用参数估计之外,我们还可以使用假设检验来进行求解。

2、假设检验基本概念
  • 假设检验:也称为显著性检验,是通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。即我们对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设是否合理。
  • 在假设检验中,我们会建立两个完全对立的假设,分别为原假设与备择假设。然后根据样本信息进行分析判断,是选择接受原假设还是拒绝原假设。
  • 假设检验基于“反证法”,首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时,我们选择去维持原假设。
  • 假设检验遵循“疑罪从无”原则,接受原假设,并不代表原假设一定是正确的,只是我们没有充分的证据去证明原假设是错误的,因此,只能维持原假设。
3、P-Value与显著性水平
  • 为了便于量化,我们可以计算一个概率值(P-Value),该概率值可以认为就是支持原假设的概率。
  • 因为在假设检验中,通常原假设为等值假设,因此,P-Value也就表示样本统计量与总体参数无差异的概率。我们可以设定一个阈值,这个阈值就是显著性水平(使用a)表示,通常a的取值为0.05(1-a为置信度)。当P-Value的值大于a时,支持原假设,否则,拒绝原假设。
  • 假设检验与置信区间具有一定的关联性,只不过置信区间是通过正面的方式来计算总体参数可能的值。而假设检验是从反证的角度来判断,是接受原假设,还是拒绝假设。
4、假设检验的步骤
  • 设置原假设和备择假设
  • 设置显著性水平a(通常选择a=0.05)
  • 根据问题选择假设验证的方式
  • 计算统计量,并通过统计量获取P值
  • 根据P值与a值,决定接受原假设还是备择假设。
5、Z检验
  • Z检验用来判断样本均值是否与总体均值具有显著性差异
  • Z检验是通过正态分布的理论来推断差异发生的概率,从而比较两个均值的差异是否显著。
  • Z检验适用于:总体呈正态分布、总体方差已知、样本容量较大(> =30)的情况。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值