如何应用卡方检验应用

1、概念入门

卡方检验(Chi-Squared Test或 x 2 x^{2} x2 Test是一种统计量的分布在零假设成立时近似服从卡方分布( x 2 x^{2} x2分布)的假设检验。在没有其他的限定条件或说明时,卡方检验一般指代的是皮尔森卡方检验。在卡方检验的一般运用中,研究人员将观察量的值划分成若干互斥的分类,并且使用一套理论(或零假设)尝试去说明观察量的值落入不同分类的概率分布的模型。而卡方检验的目的就在于去衡量这个假设对观察结果所反映的程度。

  • 皮尔森卡方检验,是最有名的卡方检验,有两种用途,分别是“适配度检定”(Goodness of Fit test)以及“独立性检定”。科学文章中,当提到卡方检定而没有特别注明是哪一种时,通常便是指皮尔森卡方检定。
  • 叶氏连续性修正:当用皮尔森卡方检定做独立性检定时,若任何一个字段的期望次数小于5,会使“近似于卡方分配”的假设不可信,统计值会系统性地偏高,导致过度地拒绝虚无假设,此时可以做叶氏连续性修正。
  • McNemar’s test,用于某些 2 × 2 表格的配对样本。
  • portmanteau test,用于时间数列分析里检定自我相关的存在。
  • 似然比检验(英语:likelihood ratio test),在建立统计模型时,用于检定证据是否支持某个复杂的模型(使用变数较多)优于简单的模型(使用变数较少),其中简单模型所使用的变数全部包含于复杂模型中。

2、基本原理

卡方检验的基本思想是比较观察频数和期望频数。观察频数来自实际收集的数据,而期望频数则是在假设两个变量独立时预期的频数。检验的核心是计算卡方统计量(Chi-square statistic),其公式为:
在这里插入图片描述

其中,O 表示观察频数,E 表示期望频数。

卡方检验的类型

  1. 拟合优度检验(Goodness of Fit Test):用于检验一组观察频数是否符合某个特定的分布。
  2. 独立性检验:用于检验两个类别变量是否相互独立。
  3. 同质性检验:用于比较两个或更多群体的分布是否相同。

进行卡方检验的步骤

  1. 建立假设:零假设(H_0)通常表明两个变量是独立的,而备择假设(H_1)则表明变量之间存在关联。
  2. 构建列联表:列联表是一种特定格式的表格,用于显示两个变量的频数分布。
  3. 计算期望频数:基于零假设,计算在独立情况下预期的频数。
  4. 计算卡方统计量:使用上面的公式计算。
  5. 确定显著性水平:通常选择0.05或0.01。
  6. 比较p值和显著性水平:根据卡方统计量和自由度,确定p值,并与预先设定的显著性水平比较。
  7. 做出结论:如果p值小于显著性水平,则拒绝零假设,表明两个变量之间存在显著的关联。

注意事项

  • 当期望频数太小(比如小于5)时,卡方检验的结果可能不准确。
  • 卡方检验不适用于连续数据或单个样本的比较。
  • 卡方检验只能检测两个变量之间是否独立,不能确定变量之间的因果关系。

3、模拟验证

3.1模拟代码

import numpy as np
import scipy.stats as stats

# 假设我们有一个列联表,表示两个分类变量A和B的频数分布
# 这里我们使用一个简单的例子

# A和B的频数分布
# A1  A2
# B1  30  20
# B2  20  30

# 创建列联表
data = np.array([[30, 20], [20, 30]])

# 进行卡方检验
chi2_stat, p_val, dof, ex = stats.chi2_contingency(data)

chi2_stat, p_val, dof, ex

在这个卡方检验的例子中,我们有一个2x2的列联表,展示了两个分类变量A和B的频数分布。
卡方检验的结果显示:

卡方统计量(Chi-Square Statistic): 3.24
P值(P-Value): 0.0719
自由度(Degrees of Freedom): 1
期望频数表(Expected Frequencies):
[[25., 25.],
[25., 25.]]

3.2 解释

  • 卡方统计量(Chi-Square Statistic):这个值衡量观测频数与期望频数之间的差异。更高的值表示更大的差异。
  • P值(P-Value):这个值告诉我们观测到的数据(或更极端的数据)仅出于偶然的概率。在这个例子中,P值为0.0719,意味着如果A和B是独立的(没有关联),那么有约7.19%的概率观测到这样或更极端的数据。
  • 自由度(Degrees of Freedom):在卡方检验中,自由度是由数据的分类数决定的。在2x2表中,自由度为1。
  • 期望频数表(Expected Frequencies):这个表显示了在A和B独立的情况下,我们期望的频数分布。在这个例子中,每个单元格的期望频数是25。

根据这个卡方检验,虽然观测数据显示了一些差异,但这种差异不足以在统计学上认为A和B之间存在显著的关联(通常以p < 0.05为标准)。因此,我们不能拒绝A和B独立的零假设。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值