总第166篇/张俊红
我们前面讲过方差分析,方差分析的应用场景是什么样子的呢?不记得同学可以翻回去看看。当我们要比较两组或者多组均值有没有显著性差异的时候,我们可以用方差分析。请注意,这里面我们提到是两组或者多组之间的均值比较时,我们用方差分析,想一下什么类型的数据可以求均值呢?是不是只有数值类型的数据才可以求均值。也就是所谓的连续型变量。那如果我们要比较两组或者多组之间的分类型变量之间是否有显著性差异呢?这个时候就不可以使用方差分析了,就需要使用专门用于分类变量比较的卡方检验。
接下来我们具体看一下卡方分析是怎么做的。
现在某个研究机构为了验证一下吸烟与肺病的关系,通过抽样调查得到如下数据:
我们先假设是否吸烟与是否患肺病之间是没有必然联系的,也就是不管是否患肺病的群体中吸烟者比例都应该等于合计中吸烟者比例,即33%。我们来看一下,如果各组的吸烟者比例都为33%的时候,各组的人数分布情况是什么样的。我们通过上表可以看出肺病患者里面的吸烟比例为48%,明显高于非肺病患者中的吸烟比例20%。可是这能直接说明两者之间有显著性差异吗?我们需要来验证一下到底显著不显著呢?那具体该怎么验证呢?