卡方检验
当衡量两个连续变量间的线性关系时,我们可以使用Pearson相关系数。那么当我们面对的数据是两个分类变量呢?没错,看过下面这张图的应该还记得,我们可以用列联表结合卡方检验来分析分类变量间的相关性。
![d52d3060a7d2cd5f337d0145bd4dbc1d.png](https://i-blog.csdnimg.cn/blog_migrate/cd035625cbe3feaa73858903ffb1236a.jpeg)
一、列联表
列联表是一种常见的分类汇总表,它将两个变量的不同水平分别放在行和列中,中间对应着每组的频数。如下表:使用药物A且治愈了的病人有1800名,使用药物B且治愈了的病人有800名……
![ad1d0dd2b6ce173673ee8dd866fbbb74.png](https://i-blog.csdnimg.cn/blog_migrate/30c8a0fb9cf6f2f3925b78ea8b9e7473.jpeg)
在pandas中,我们可以直接使用pd.crosstab(rows,columns,margins=True)来生成列联表。其中margins用于设置是否限制汇总列和汇总行。
有些时候我们可能需要百分比数据,这时我们直接用每个单元格除以汇总列或汇总行的数据即可。
二、卡方检验
卡方检验的思想在于比较期望频数和实际频数的吻合程度,实际频数就是上边表格里黄色区域的数字,而期望频数则是指行列变量相互独立的时候期望的频数。我们下边用一张图来演示如何