卡方检验作为广为使用的假设检验方法,其在目前进行数据分析时的使用频率简直不要太多,但许多博文在介绍时仅焦距于展现公式与典型实例,缺乏从 需要解决什么问题 - 如何解决相应问题 的角度进行解释。近期看了些卡方分布与卡方检验的相关博文,希望可以从另一个方向理解这两个内容,也借机梳理一下其间的逻辑,如有不足之处还请指正。
基本原理
让我们由果溯因,首先从卡方检验的作用开始说起。作为常用的假设检验方法,卡方检验(Chi-Square Test)希望衡量样本所代表的实际情况与理论假设间的差异性。比如想判断喝牛奶对感冒发病率有无影响,而假设两者间并无影响,就需要作出由假设而得到的理论四格表,并将其与样本统计获得的四格表作对比,判断两个表格之间存在的差异性。
由此产生的第一个问题是,如何衡量两者之间的差异性?
毫无疑问,此处需要使用卡方检验计算公式,即著名的Pearson χ 2 \chi ^2 χ2 ,先上公式:
χ 2 = ∑ ( A − E ) 2 E = ∑ i = 1 k ( A i − n p i ) 2 n p i \chi ^2 =\sum \frac{(A-E)^2}{E}= \sum_{i=1}^{k}\frac{(A_i-np_i)^2}{np_i} χ2=∑E(A−E)2=i=1∑