分类变量的卡方检验(python实现&SPSS实现)

本文介绍了卡方检验用于分析分类变量的相关性,特别是在聚类分析中检验聚类效果。通过Python和SPSS两种方式演示了卡方检验的步骤,结果显示聚类与标签之间存在显著联系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

卡方介绍

卡方检验是针对自变量和因变量都是分类数据,也就是说带有属性的数据;而单因素方差分析是自变量是分类数据,因变量是连续型的数据。还有一点:方差分析是参数检验,而卡方检验是属于非参数检验。

卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小:卡方值越大,偏差越大,越趋于不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

案例介绍

本次实验是研究聚类结果和标签DR的关系,即检验我们的聚类有没有意义。标签是0、1区分,聚类是0、1、2区分的
在这里插入图片描述
首先我们需要检查他们的交叉表,即
在这里插入图片描述

然后我们通过这个表看不出聚类结果的簇间患病差异性大小,因此采用卡方检验,首先做出假设:
在这里插入图片描述
然后计算理论值:
示例:比如cluster0&DR=0的理论值是:sum(cluster0)*sum(DR=0)/总数
在这里插入图片描述
然后通过卡方的公式:
在这里插入图片描述
A是实际值,T是理论值,

再计算卡方的 自由度 v:

						v=(行数-1)(列数-1)=(2-1)(3-1) = 2

最后根据计算结果查表即可。
在这里插入图片描述
卡方临界值 为 (一般取 p=0.05),因此对应表中的结果是5.99,我们的程序结果:
在这里插入图片描述

22.6>5.99,因此拒绝0假设,即两个因素之间存在联系。

python实现

程序示例如下:

# -*- encoding: utf-8 -*-
"""
@Modify Time    2021/6/26 15:44  
@Author         Tunan
@Filename       test1.py
@Desciption
                  
"""
from scipy.stats import chi2_contingency


class CHISQUARE:
    def __init__(self, d0, d1):
        self.d0 = d0
        self.d1 = d1

    def get_tabel(self):
        dd0 = 
### 如何在SPSS中执行卡方检验 #### 数据准备 为了进行卡方检验,在SPSS中可以有两种式来组织数据。一种是仅定义一个用于存储实际样本值的变量;另一种则是定义两个变量,其中一个用来存放变量值,另一个则记录对应的观测频数,并将其设置为加权变量。对于后者而言,本案例中的加权变量即为人数组[^1]。 #### 前提条件 值得注意的是,当采用卡方检验时,基于皮尔逊定理的要求,应确保样本量足够大,通常建议不少于30个样本点。此外,还需注意每个单元格内的预期频数不宜过低,以免影响测试的有效性[^2]。 #### 执行过程 具体的操作流程如下所示: 进入`Analyze`菜单下的`Descriptive Statistics`选项里的`Crosstabs...`命令; 在此界面中分别选定行变量(Row(s))与列变量(Column(s)),并点击右侧箭头按钮将它们移入相应的框内; 接着切换至`Statistics...`子对话框勾选`Chi-square`复选框以激活卡方检验功能; 如果存在权重变量,则需要通过`Data`->`Weight Cases...`路径开启权重处理模式,选择`Weight cases by`并将事先设定好的频率变量作为权重依据输入进去; 最后确认无误后单击OK键提交运行请求等待输出结果窗口显示统计报告即可完成整个分析过程[^4]。 ```python # Python伪代码示意如何调用类似的功能接口(并非真实语法) analyze.crosstabs( row_variable="your_row_var", column_variable="your_column_var", statistics={"chi_square": True}, weight_by="frequency_variable" ).execute() ``` #### 结果解释 一旦获得了卡方检验的结果,应当仔细审查显著性水平(p-value),以此判断是否存在统计学意义上的关联性或差异。同时也要关注其他辅助指标如Pearson Chi-Square的具体数值及其自由度(df),从而全面理解两组或多组分类资料之间的关系强度和向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值