sql联表分类统计_分类变量的相关性:五分钟掌握卡方检验「详细解析,附代码」...

卡方检验

当衡量两个连续变量间的线性关系时,我们可以使用Pearson相关系数。那么当我们面对的数据是两个分类变量呢?没错,看过下面这张图的应该还记得,我们可以用列联表结合卡方检验来分析分类变量间的相关性。

d52d3060a7d2cd5f337d0145bd4dbc1d.png

一、列联表

列联表是一种常见的分类汇总表,它将两个变量的不同水平分别放在行和列中,中间对应着每组的频数。如下表:使用药物A且治愈了的病人有1800名,使用药物B且治愈了的病人有800名……

ad1d0dd2b6ce173673ee8dd866fbbb74.png

在pandas中,我们可以直接使用pd.crosstab(rows,columns,margins=True)来生成列联表。其中margins用于设置是否限制汇总列和汇总行。

有些时候我们可能需要百分比数据,这时我们直接用每个单元格除以汇总列或汇总行的数据即可。

二、卡方检验

卡方检验的思想在于比较期望频数和实际频数的吻合程度,实际频数就是上边表格里黄色区域的数字,而期望频数则是指行列变量相互独立的时候期望的频数。我们下边用一张图来演示如何

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值