别错过,卡方检验实用总结!

191 篇文章 30 订阅
161 篇文章 21 订阅

通常情况下,卡方检验是研究分类数据与分类数据之间关系的分析方法,如性别和是否戴隐形眼镜之间的关系。卡方检验通常会涉及卡方值和P值两个名词术语。卡方值与P值有对应关系,P值小于0.05则说明有差异存在,即性别与是否戴隐形眼镜之间有联系。在具体差异分析的基础上,进一步分析不同性别样本戴隐形眼镜的百分比,例如,男性戴隐形眼镜的百分比为30%,而女性戴隐形眼镜的百分比为50%,说明女性样本戴隐形眼镜的比例要明显高于男性样本。

 

除此之外,卡方检验(准确说是卡方拟合优度检验)还可以检验定类数据的分布特征是否与预期保持一致。比如本来预计男性和女性的比例各占一半(50%),但收集回来的数据却是45%和55%,那么收集回来的数据是否就明显的偏差预期(50%)呢?此时也可以使用卡方检验。

 

卡方检验在实际使用过程中,还可用于问卷多选题的分析(也称作多重响应分析),比如多选题的选择比例是否均匀,也或者单选题和多选题之间的差异关系情况如何呢,均可使用卡方检验进行分析。下表格为卡方检验的实际使用类型说明:

 

检验类型

说明

举例

卡方检验

定类和定类数据的差异

比如性别和是否戴眼镜

卡方拟合优度检验

定类数据的选项占比差异

比如预期性别中男和女各占一半,数据是否是这样呢?

多重响应分析

多选题的选项分布情况是否有差异?单选题和多选题之间是否有着选择差异?

多选题涉及到的差异分析

 

1 卡方检验理论说明

 

通常理解的卡方检验,其检验目的在于定类和定类数据的差异。比如性别和是否戴眼镜的关系,性别和是否戴眼镜都是定类数据,因此可以研究性别和是否戴眼镜的比例是否有明显的差异性。

除此之外,还有一种卡方检验(准确说是卡方拟合优度检验),其目的是研究定类数据各选项的分布比例上是否有着差异性,比如性别男和女预期是50%和50%,那事实上的样本是否明显的偏离这一比例呢,这种即卡方拟合优度检验。

在问卷研究里面,有很多的多选题,多选题各项的比例是否均匀呢?那么就可以利用卡方拟合优度检验进行分析(SPSSAU默认提供);如果想研究单选题和多选题的选择差异关系,那么这种是研究定类数据和定类数据的差异性,SPSSAU默认也提供卡方检验结果。

 

2 如何使用SPSSAU进行卡方检验

 

说明

SPSSAU位置

定类和定类数据的差异

  • 通用方法-》交叉(卡方)
  • 医学研究-》卡方检验

定类数据的选项占比差异

  • 医学研究-》卡方拟合优度检验

多选题的选项分布情况是否有差异?单选题和多选题之间是否有着选择差异?

  • 问卷研究-》多选题
  • 问卷研究-》单选-多选
  • 问卷研究-》多选-多选

 

1)绝大多数情况下,均是直接研究定类和定类数据差异,SPSSAU共有两个地方可实现,分别是通用方法里面的“交叉(卡方)”和医学研究里面的卡方检验。如果是汇总数据,即加权数据,此时只能使用医学研究里面的卡方检验,同时,如果希望提供更多详细的数据指标,比如自由度,列联系数,Cramer V等,均需要使用医学研究里面的卡方检验。

 

2)如果是进行卡方拟合优度检验,即研究定类数据选项占比差异,此时应该使用医学研究里面的卡方拟合优度检验。操作如下图所示:

 

默认SPSSAU会假定选项的选择比例完全一致,即男和女的比例是50%和50%。如果预期是40%和60%,那么可对“期望值设置(默认相等)”这个按钮进行设置,如下图:

 

 

3)如果是问卷研究里面的多选题操作,直接使用SPSSAU问卷研究里面对应多选题的按钮即可,比如下图:

 

 

如果是希望研究多选题的选择比例和选择差异情况,那么直接使用‘多选题’;

  • 如果是研究单选题和多选题的差异情况,使用‘单选-多选’;
  • 如果是研究多选题和单选题的差异情况,使用‘多选-单选’;
  • 如果是研究多选题和多选题的差异情况,使用‘多选-多选’;

特别说明一点:多选题的数据格式非常特殊,一个选项一个标题,比如5个选项就有5个标题,而且需要使用数字标识‘选中’还是‘没有选中’,一般情况下数字1表示‘选中’,数字0表示‘没有选中’。

如果原始数据使用数字表示选中,null值表示没有选中,那么需要把null值全部替换成数字0,可使用SPSSAU数据处理->异常值功能进行批量处理,把null值即缺失值填补成数字0即可。

 

 

3 卡方检验相关问题?

使用卡方检验时,数据格式非常重要,因为SPSSAU支付加权和非加权两种格式,而且有时想利用卡方检验查看相关关系情况,此时还需要看一些新的指标,比如列联系数、Cramer V或Lambda指标等。当然还会有一些其它问题,汇总如下图:

 

 

第1点:卡方检验数据格式问题?

SPSSAU共支持2种数据格式,分别是常规数据格式(非加权格式)和加权格式,如下说明:

 

上图为常规格式(即非加权格式),一行代表一个样本,一列代表一个属性,将全部的原始数据信息列出即可,比如有100个样本,那么就有100行数据。

在医学/实验研究时,很多时候只有汇总数据,即带加权项的数据,比如下图中X有2种情况,Y有3个情况,一种有2*3=6种组合,数据信息只有6种组别的汇总项(即加权项),分别是40,10,20,30,20,50;相当于总共有170个样本,如果是使用常规格式(即非加权格式),此时应该有170行;但加权格式则只需要6行即可表示,如下图:

 

在使用SPSSAU医学研究-》卡方检验,也或者医学研究-》卡方拟合优度检验时,SPSSAU均支持加权数据格式。一旦数据是加权格式,那么分析时需要把‘加权项’放到对应的框中即可。

 

第2点:fisher卡方值问题?

在SPSSAU的医学研究->卡方检验里面,如果数据是2*2格式,比如性别为男和女2个选项,学历分为本科以下和本科以上共2个选项。那么此时为2*2的组合,此时spssau默认会提供fisher卡方检验值。

当然,SPSSAU还会提供一些其它的卡方指标值,包括pearson卡方,连续校正卡方,各选择单元格的期望值和比例值等中间过程值等等(当然具体应该使用那一个,SPSSAU会自动进行判断和选择),下图仅为中间过程值等。

 

第3点:相关关系问题?

如果希望看出差异的幅度,而不仅仅是看是否有差异。除了使用肉眼进行分析,即对比选择百分比的具体值情况进行分析外。还可以使用效应量(effect size),effect size值通常包括Phi、列联系数、校正列联系数、Cramer V和Lambda等。此五个系数的意义都是查看差异幅度,但使用的前提并不一样,通常只需要使用其中一个即可,具体使用的标准和说明如下:

 

 

第4点:到底用卡方,还是方差,也或者非参数检验?

有时候会出现一种疑问,比如看下面的例子。

当前想研究性别和满意度的差异关系,满意度分为“非常不满意、比较不满意、一般、满意和非常满意”共五项。满意度看上去更像是定量数据,而非定类数据,但看成是定类数据也可以。

那么此时到底用卡方呢,还是使用方差(也或者非参数检验呢?)。其实这里的满意度是一种有序的定类数据,一般这种数据可能看成是定量更多,即使用方差分析更适合(当然也可使用卡方检验)。

但比如医学里面有这样的数据未见疗效,好转和治愈”,这个也是有序的定类数据,这个仅3项,看成是定类数据就更适合了,所以使用卡方检验较好。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值