方差分析
方差分析(analysis of variance),简写为ANOVA,指的是利用对多个样本的方差的分析,得出总体均值是否相等的判定。它是一种分析调查或试验结果是否有差异的统计分析方法,也就是检验各组别间是否有差异。
方差分析按照以下流程进行:
1. 数据类型
因为方差分析是用于分析定类数据与定量数据的关系,所以要对数据进行判断。如果仅仅是2组定类数据,则可以用t检验;2组及其以上用方差分析;但如果因变量Y是定类变量,则需要用到卡方分析。
2.方差分析类别
根据自变量X的组别,可以分为单因素方差分析和多因素方差分析,其中多因素方差分析可以继续划分双因素和多因素。在数据分析中,可以用方差分析去评价聚类效果的好坏。
3.正态性检验
需要对因变量Y进行正态性检验,常用以下进行正态性检验:
- 用直方图和正态曲线看看数据是否符合正态性,则会呈现出中间高、两侧低、左右基本对称的“钟形”分布曲线;
- P-P图/Q-Q图,通过散点与正态分布的预测直线法重合程度以说明数据是否服从正态分布。两图的x轴和y轴数据方法不同,但功能一样。
- 正态性检验,如果样本量大于50,则应该使用Kolmogorov-Smirnov检验结果,反之则使用Shapro-Wilk检验的结果。
如果不满足正态性,可以进行对数处理,不过不好进行解释;也可以进行非参数检验;不进行正态检验也可以。但为了严谨一些建议先进行正态检验。
4. 方差齐性检验
单因素方差分析需要对数据进行方差齐性检验,具体见方差齐性检验。
5. 方差分析
统计量F值
一般我们会有软件直接进行处理,能看懂结果就行了,方差分析结果如下:
如果是多因素方差分析,需要考虑因素之间的交互效应。
6. 事后检验
如果方差分析显示没有差异性,则不需要进行事后多重比较。而在判定组均值之间有显著差异后,仍有一些问题悬而未决。这个结果只能表明至少有两个组之间的均值有显著差异,但没有说明究竟哪几个组均值显著不同,我们必须进行事后检验。可以使用TukeyHSD—Tukey检验,以下是每种事后检验的差异: