Python - 列联表的独立性检验(卡方检验)

scipy.stats.chi2_contingency

想对两个或两个以上因子彼此之间是否相互独立做检验时,就要用到卡方检验,原以为在Python中实现会像R的chisq.test一样简便,但scipy的stats模块功能实在分得太细,之前查到的是stats中的chisquare方法,但尝试过后发现chisquare实际上是做适合性检验的。
在Baidu上搜索,几乎没看到真正用Python做独立性检验的讲解,几经辗转,终于在Stack Overflow上找到了Python中的列联表独立性检验,即chi2_contingency

e.g. 三种农药的杀虫数据

杀虫效果
死亡数 37 49 23
未死亡数 150 100 57

分析杀虫效果与农药类型是否有关

import numpy as np
from scipy.stats 
在数据分析中,列联表(也称为交叉表或卡方检验)用于评估两个分类变量之间的关系强度和显著性。它通常用于进行卡方检验Chi-squared test),这是一种统计假设检验,用来判断两个类别变量是否相互独立。 当你有两组数据,一组是独立变量(通常是分组因素),另一组是因变量(计数变量),你可以构建一个列联表,其中每一行代表一个独立变量的水平,每一列表示一个因变量的水平,然后计算每个单元格的期望频率(基于总体比例)和实际观察到的频数。如果这两个值差异很大,那么可能存在关联;反之,如果接近,则表示变量之间可能独立。 Python中使用`scipy.stats`库中的`chi2_contingency`函数来进行卡方检验。以下是一个简单的例子: ```python from scipy.stats import chi2_contingency # 假设我们有两个分类变量的观测数据 observed_data = [ [20, 30], # 第一类因变量的频数 [50, 70] # 第二类因变量的频数 ] # 计算列联表的预期频率 expected_data = [sum(observed_data[i]) * sum(observed_data[0])/len(observed_data) for i in range(len(observed_data))] # 使用chi2_contingency计算卡方值、p值、df和概率 chi2_stat, p_value, dof, expected_values = chi2_contingency(observed_data) # 输出结果 print("卡方统计量 (&chi;&sup2;):", chi2_stat) print("p值:", p_value) print("自由度 (df):", dof) # 如果p值小于某个阈值(比如0.05),我们可以拒绝原假设,认为两个变量间存在显著关联 if p_value < 0.05: print("我们拒绝了零假设,认为两个变量间存在显著关联。") else: print("没有足够的证据表明两个变量间存在显著关联。")
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值