2×3卡方检验prism_分类变量的相关性:五分钟掌握卡方检验「从理论到Python实战」...

本文介绍了如何使用卡方检验分析分类变量之间的相关性,通过列联表展示数据,并在Python中进行计算。讲解了卡方检验的原理,计算期望频数和实际频数的差异,并通过p值判断变量间是否存在显著关联。
摘要由CSDN通过智能技术生成

卡方检验

当衡量两个连续变量间的线性关系时,我们可以使用Pearson相关系数。那么当我们面对的数据是两个分类变量呢?没错,看过下面这张图的应该还记得,我们可以用列联表结合卡方检验来分析分类变量间的相关性。

9bafd13bfe699e8589dfdf4a51d1b54d.png

一、列联表

列联表是一种常见的分类汇总表,它将两个变量的不同水平分别放在行和列中,中间对应着每组的频数。如下表:使用药物A且治愈了的病人有1800名,使用药物B且治愈了的病人有800名……

322401f2365dd0a7c890ceff152ebdba.png

在pandas中,我们可以直接使用pd.crosstab(rows,columns,margins=True)来生成列联表。其中margins用于设置是否限制汇总列和汇总行。

有些时候我们可能需要百分比数据,这时我们直接用每个单元格除以汇总列或汇总行的数据即可。

二、卡方检验

卡方检验的思想在于比较期望频数和实际频数的吻合程度,实际频数就是上边表格里黄色区域的数字,而期望频数则是指行列变量相互独立的时候期望的频数。我们下边用一张图来演示如何

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值