数据分析之卡方检验

置顶 YouShouldKnowMe

已于 2023-02-27 09:50:16 修改

阅读量4.8w

点赞数 51

分类专栏：数据分析文章标签：数据分析数据挖掘

于 2022-07-04 10:16:39 首次发布

自信即是巅峰

本文链接：https://blog.csdn.net/DD18203614685/article/details/125593444

版权

数据分析专栏收录该内容

29 篇文章

订阅专栏

1、卡方检验定义

卡方检验，是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

是一种非参数检验方法。它的原假设H0 为：观察频数与期望频数没有显著性差异。

其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

卡方检验分为拟合度的卡方检验和卡方独立性检验。

在大数据运营场景中，通常用在某个变量(或特征)值是不是和因变量有显著关系。

通俗来讲：卡方检验就是检验两个变量之间有没有关系,
例如：

卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别；
不同城市级别的消费者对买SUV车有没有什么区别；

2、卡方检验用途

检验某个连续变量的分布是否与某种理论分布相一致。例如是否符合正态分布，均匀分布，Poisson(泊松)分布
检验某个分类变量的各类的概率是否等于指定概率
检验某两个分类变量是否相互独立
检测两种方法的检测结果是否一致
检测控制某种或某几种的变量后，另外两个分类变量是否相互独立。

卡方检验的一个典型应用场景是衡量特定条件下的分布是否与理论分布一致，比如：特定用户某项指标的分布与大盘的分布是否差异很大，这时通过临界概率可以合理又科学的筛选异常用户。

另外，x2值描述了自变量与因变量之间的相关程度：x2值越大，相关程度也越大，所以很自然的可以利用x2值来做降维，保留相关程度大的变量。例如新闻分类的场景，如果我们希望获取和娱乐类别相关性最强的100个词，以后就按照标题是否包含这100个词来确定新闻是否归属于娱乐类，对娱乐类新闻标题所包含的每个词按上述步骤计算x2值，然后按x2值排序，取x2值最大的100个词。

3、案例

3.1 独立性检验

独立性检验评估的是，在一个列联表中，不成对的观测对象中的两个变量是不是相互独立的

案例一、想知道喝牛奶对感冒发病率有没有影响

在这里插入图片描述

喝牛奶组和不喝牛奶组的感冒率为30.94%和25.00%，两者的差别可能是抽样误差导致，也可能是牛奶对感冒率真的有影响。

下面进行假设：假设喝牛奶对感冒发病率没有影响，即喝牛奶与感冒无关

所以感冒的发病率实际是（43+28）/(43+28+96+84)=28.29%
所以可以得到理论的表格
在这里插入图片描述

如果说真的没有影响的话表格中理论值和实际值差别应该会很小。

卡方检验的计算公式
在这里插入图片描述

其中:Ai 为单元格i中的观察值，pi为单元格i中的在H0假设前提下的概率，k为单元格数 X^2值的意义:衡量理论与实际的差异程度。

经过计算可以计算得到 X^2=1.077

H0假设拒绝与接受
根据得到的χ2 值，还并不能直接到的p-value。因为卡方分布根据其自由度有所不同，如下图所示：
在这里插入图片描述
卡方分布的概率密度函数如下：

其中k为自由度。

所以，首先需要计算所研究样本的自由度
在这里插入图片描述
其中R为单元格的行数，C为单元格的列数。
上述例子中，自由度k = ( 2 − 1 ) ( 2 − 1 ) = 1；【即自由度 = （行数-1）*（列数-1）】

根据所给定的自由度k以及χ2值，即可计算p-value

对于得到的p-value，与自己指定的显著性水平作比较（通常将0.05作为显著性水平），如果得到的p-value小于0.05，那我们认为样本所表现出来的结果是小概率事件，则我们有理由拒绝原假设H0；否则，我们需要接受原假设H0
在这里插入图片描述
参考：统计分布临界值表

我们看到，χ2分布在自由度k = 1，p=0.05时的取值为3.84。我们得到的χ2值1.077，小于3.84，且接近于p = 0.3时的χ2值1.07，故不能拒绝原假设H0 ，即喝牛奶对感冒发病率没有影响（即喝牛奶与感冒无关）

案例一参考链接：卡方检验（详解）

3.2 适合度检验

适合度检验展示了一个观察到的频率分布是否与一个理论分布不同。

案例二投掷筛子

下表为投掷120次六面骰子的实际观察值：

在这里插入图片描述

3.2.1 期望值

我们知道，在正常情况下，掷骰子服从二项分布X ∼ B ( n , p ) 其数学期望E [ X ] = n p ，方差为Var[ X ] = np( 1 − p ) 。

在进行适合度检验时，我们的原假设H0为观察到的掷骰子结果符合理论上的二项分布（Binomial distribution）。那么，我们就能得到掷骰子的理论值如下表：
在这里插入图片描述

3.2.2 χ2 值计算

由公式可得

                                          χ2=2.3

3.2.3 自由度确定

对于适合度检验，自由度的计算按照以下公式：

                                          k=C−M

其中，C为我们观察到的类别数，此例中为6；M为我们要比较的理论分布的参数的个数，此例中为1；因此k = 5

3.2.4 H0假设接受与拒绝

统计量χ 2 =2.3 所对应的p-value大约为0.8，与显著性水平0.05相差甚远，故我们应该接受原假设H0.

参考链接：卡方检验（Chi-square test / Chi-square goodness-of-fit test)

4、使用SPSS进行卡方检验

想研究性别和是否抽烟之间有没有关系，男性抽烟的比例有没有更高等，通过抽样调查得到如下数据：

在这里插入图片描述

1、SPSS操作步骤

（1）传入数据或输入数据

打开SPSS软件，上传如下图所示的数据格式文件，或者在SPSS软件中手动输入下图所示数据：
在这里插入图片描述
第一列存入行（性别）信息，其中1代表男，2代表女；

第二列存入列（是否吸烟）信息，其中1代表吸烟，2代表不吸烟；

第三列存入每一种情况所对应的数据（人数），如：是男性且吸烟的人数有51人。

（2）数据加权处理

在主页面点击【数据】-【加权个案】
在这里插入图片描述
弹出加权个案操作的对话框，选中【加权个案】

将【人数】变量拖入【频率变量】框中，点击【确定】。

在这里插入图片描述
这样就完成了数据加权处理，下一步可以做卡方检验了。

（3）卡方检验操作

点击【分析】-【描述统计】-【交叉表】
在这里插入图片描述
弹出交叉表操作对话框，按照下图的关系将三个变量放入对应的分析框中。

放好之后就是这个样子：

放好变量后，接着设置：点击【统计量】-在弹出的对话框中选中【卡方】，并选中名义栏中的【Phi和Gramer变量】-点击【继续】
在这里插入图片描述
此时回到交叉表对话框，点击【确定】得出分析结果。

（4）卡方检验结果

在这里插入图片描述
SPSS看输出的卡方检验结果，主要看卡方值和P值。
原假设H0为性别与抽烟之间没有关系，P值为0.017<0.05,拒绝原假设，即性别与抽烟之间存在关系。

5、SPSS中卡方检验的结果选择

卡方检验的校正非常重要，这是因为卡方检验是以期望频数和实测频数的差异大小为分析基础的，如果通过计算，发现某个单元格内的期望频数小于5，那么有很大的可能性是由于样本频数不足导致的，此时继续使用卡方统计量公式进行计算和分析就非常不可靠了

用SPSS输出一个四格表的卡方检验结果，可以发现，与其它类型的卡方检验相比，它的分析结果多了两个：连续型修正和Fisher确切概率。皮尔逊卡方值就是用上一篇介绍的卡方统计量计算的卡方值，而连续性修正和费舍尔精确检验则需要根据表格内的频数情况进行选择。假设总频数为n，单元格内的期望频数为E，那么选择规则如下：

当n大于等于40，且E大于5时，看皮尔逊卡方值即可；
当n大于等于40，且E小于5且大于1时，选择连续性修正值；
当n小于40，或E小于1时，选择费舍尔精确检验结果；

1、Pearson卡方

卡方检验最基本的就是Pearson卡方
在这里插入图片描述
当总频数n大于等于40，且所有单元格内的期望频数E都大于等于5时，2*2四格表的卡方检验结果直接选择Pearson卡方值作为检验结果即可。但是，如果最终的Pearson卡方检验的检验概率值p与显著性水平α（0.1、0.05、0.01）非常接近时，应该选择Fisher精确检验值作为检验结果。

2、连续性修正

对于总频数n>=40，但单元格中有期望频数1=<E<5时，2*2四格表的卡方检验结果应该选择连续型修正的结果，进行修正的原因上面已经解释，这是由卡方检验原理及卡方分布性质决定的。连续型修正公式如下：

在这里插入图片描述
当然，这种频数情况也可以直接选择Fisher精确检验结果作为最终结果。

3、Fisher精确检验

当2*2四格表中，有单元格的期望频数E<1，或总频数n<40时，直接用Pearson卡方值作为检验结果就不够准确和灵敏了。原因其实很好理解，样本总频数n小于40，频数分布结果有很大的可能性不具有代表性；单元格内的期望频数小于1，这有可能是由于样本频数数据不够多而导致的小概率事件，并没有反应总体的频数分布情况。

Fisher精确检验能够解决上面这个问题。Fisher精确检验的理论分布不是卡方分布，而是超几何分布（可以到统计基础导航页找到相应文章回顾），是一种直接计算事件发生概率的检验方法。Fisher精确检验的分析逻辑是在四格表周边合计频数不变的条件下，利用超几何分布概率公式直接计算比实际频数分布情况更为极端情形发生的概率，下面用一个生活案例来说明Fisher精确检验的分析逻辑和过程。

为了解某新药联合常规药物治疗疾病的效果，将28例情况相似的患者随机分成两组：实验组采用新药+常规药物的治疗方案；对照组仅采用常规药物治疗；治疗10天后，根据疗效对28名患者进行分组，数据整理如下表：

在这里插入图片描述
可以发现，总频数只有28，而期望频数（括号内数据）小于5的单元格有两个，应该用Fisher精确检验来考察实验组和对照组在有效率上是否有显著性差异。

首先列出比实际频数分布情况更为极端的频数分布情况，然后用超几何分布的概率计算公式计算出每种频数分布情况的发生概率：

在这里插入图片描述
因为考察的是比实际频数分布更极端的情况，所以只对“无效”下方的两个单元格频数进行变化。在保持行和列合计频数不变的条件下，可以列出上面七种频数分布情况。用超几何分布的公式计算每种情况的发生概率，以前4种情况为例介绍结算过程：

在这里插入图片描述
将所有7种情况的概率相加，得到Fisher精确检验的双侧检验的概率值：

如果是单侧检验，检验的目的是证明实验组比对照组的有效率更好，那么只需将实验组好于对照组的情况概率相加，其概率值为：

无论是双侧还是单侧概率，Fisher精确检验的概率值都大于0.05，可以说明实验组和对照组的有效率是不一致的，且实验组的有效率优于对照组。

结果解释

下表是SPSS的卡方检验结果。可以发现，皮尔逊卡方值、连续性修正值和Fisher精确检验结果与上方手动计算的结果完全相同。可以发现三者的显著性都大于0.05，说明实验组和对照组的治疗效果是没有显著性差异的。
在这里插入图片描述

由此可见，多数情况下，皮尔逊卡方、连续性修正和Fisher精确检验的结果是相同的，这样的情况没有问题。如果三者的最终检验结果不同，那么应该根据上面介绍的选择条件选择合适的检验结果作为最终结果。本案例中，因为总频数小于40，而且有两个单元格的期望频数小于5，所以应该以Fisher精确检验的结果为准。

总结一下

2*2四格表，因为其特殊的结构和卡方分布的性质，所以SPSS的检验结果中会增加连续性修正和Fisher精确检验这两个校正项，大家需要根据实际数据的频数分布情况对它们进行选择。如果皮尔逊卡方、连续性修正和Fisher精确检验的结果一致，那么选择哪个结果都可以。但是，如果三种检验结果不同，那么需要按照前面介绍的条件进行选择，否则会得到错误的分析结论。对于四格表数据，如果分析因子（例如不同疗法）对事件（例如不同效果）的相关性，可以使用优势比OR值表示因子对事件的影响程度。

卡方检验适用于分类变量的频数分析。对于包含两个水平的两分类变量（例如男女），因为不涉及类别递增或递减信息，所以定类型和定序型的变量的卡方检验过程基本类似

对于多分类变量的卡方检验，区分到底是定类型分类变量还是定序型分类变量是非常必要的，因为定序型分类变量（例如：大一、大二、大三和大四）包含了水平间的递增或递减信息，如果依旧按照传统的卡方检验进行，这部分递进信息就会丧失，对于分析者来说是非常可惜的。因此，多分类变量的卡方检验，需要区分的情况是更多更复杂的。

卡方检验根据涉及变量的不同，可以分为单个分类变量的拟合优度检验和两个分类变量的卡方检验。拟合优度检验主要用于分析某个分类变量的频数分布是否服从某种概率分布形态；两个分类变量的卡方检验，根据分析目的的不同可以分为比率差异检验和构成比差异检验等等。下面介绍的就是两个多分类变量的卡方检验，称为行列表卡方检验，注意与2*2四格表卡方检验区分开来。

参考链接：
1、SPSS卡方检验详细操作和结果分析
 2、如何学习和理解卡方检验？
3、卡方检验