本文需要用到的Python库:
Pandas
Scipy.stats
Statsmodels
在《用Python统计推断——交叉表篇(上:crosstab与热图)》中,我们介绍了如何构建交叉表并对其可视化。本文,我们将介绍如何检验交叉表的两个分类变量,是独立还是相关。
如果观测值在两个样本之间是一一配对的,我们需要使用相关性检验,请参考《用Python统计推断——相关性篇》。
本文纲要:
一、什么是卡方独立性检验
二、卡方独立性检验的假定
三、例子中的数据
四、用Statsmodelss检验独立性
五、用Scipy.stats检验独立性
六、多重比较(Post-hoc)独立性检验
七、结论
一、什么是卡方独立性检验
交叉表汇总了两个分类变量的频数,每行的标签代表其中一个变量,每列标签代表另外一个变量。两个变量之间是互相独立的吗?卡方独立性检验可以告诉我们结果。我们回顾一下概率理论,如果变量X和变量Y是独立的话,P(X) = P(X|Y)。卡方独立性检验正是比较期望的频数(如果变量独立的话,频数期望是多少)和实际频数的值。
第i行j列的期望频数 = ( 第i行合计数 * 第j