方差分析及其在Excel、SPSS中的应用
1.什么是方差分析?
方差分析(ANOVA)指通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平。如下图,行业即为因素,零售业、旅游业、航空公司和家电制造业是行业的4个水平。
例题1:以下为4个行业在一年中各自的投诉次数,一般而言,收到投诉的次数越多,说明服务质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差别。(α=0.05)
2.方差分析的基本原理
方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,从而检验分类型自变量对数值型因变量的影响是否显著。即因变量的总误差中,除开随机误差以外,是否有分类型自变量造成的系统误差,这个误差有多大。
数据中的总误差=系统误差+随机误差。而在方差分析中,我们将其转变为:总误差(SST)=组内误差(SSE)+组间误差(SSA)。
组内误差即水平内部的误差,只包含随机抽样造成的随机误差;组间误差是不同水平之间的误差,既包括系统误差,也包括随机误差。
3.方差分析的分类
单因素方差分析:一个分类型自变量
双因素方差分析:两个分类型自变量。可分为:一、无重复双因素方差分析:只考虑主效应,而不考虑交互效应;二、可重复双因素方差分析:考虑主效应,也考虑交互效应。
交互效应指除自变量对因变量单独造成的影响外,还有可能是自变量的组合对因变量造成影响。例如图1-2,除了地区与品牌分别对销售量造成影响外,地区与品牌的搭配是否也会产生影响,此即交互效应。
4.方差分析的基本假定
①独立性:要求每个样本数据来自不同处理的独立样本
②正态性:要求每个处理对应的总体都应该服从正态总体分布。
检验方法:P-P图、Q-Q图、Shapiro-Wilk检验(适合3-50的小样本)、K-S检验
③方差齐性:各个处理的总体方差必须相等
检验方法:箱线图、残差图、Levene方差检验(原假设为各处理总体方差相等)
tips:方差分析对方差齐性要求实际较弱,略有不齐时,对分析的结果影响不是很大,尤其是当各处理的样本量相同时,方差分析对方差齐性是稳