方差分析
方差分析(简称ANOVA),用于两个及两个以上样本均数差别的显著性检验。方差分析通过检验多个总体的均值是否相等来判断一个或多个分类型自变量对数值型因变量是否由显著影响。
它形式上是比较总体均值,但是本质上是研究变量之间的关系。这里的变量中,自变量是分类型的,因变量是数值型的,所研究的关系是是指自变量对因变量的影响。
因素和水平
方差分析中,所要检验的对象称为因素(factor),因素的不同表现称为水平(treatment),因素的每一个水平都可以看作一个总体,每个因素水平下得到样本数据称为观测值。例如三年级班级跳绳比赛,每班参赛10人,分别记录一班、二班和三班参赛人员的成绩。其中跳绳比赛就是因素,它有三个水平。
两类误差
在自变量的不同取值下,样本的各观察值之间存在差异,这种差异如果是因为抽样的随机性造成的误差,称为随机误差;如果这种差异可能是因为抽样的随机性造成的,也可能是由于检验对象因素本身所造成的,后者形成的误差是由系统性因素造成的,成为系统误差。
方差分析主要是使用方差比来比较两类误差,以检验均值是否相等。如果系统性误差显著地不同于随机误差,则均值就不相等。反之,均值就是相等的。
两类方差
组内方差:自变量的同一取值下样本数据的方差,组内方差只包含随机误差。例如一班10名参赛人数的跳绳成绩。
组间方差:自变量的不同取值下各样本之间的方差,组件方差既包含随机误差,也包含系统误差。例如,三个班级跳绳成绩之间的方差。
误差分析
如果因素的不同水平对每个水平下的均值没有影响,则组间误差只有随机误差而没有系统误差。组内误差和组间误差的均方之比应该接近1;否则它们的比值就会大于1,当大到某个程度时,就认为因素的不同水平之间存在着显著差异,也即自变量(例如班级因素)对因变量(例如不同班级的跳绳成绩)有显著影响。
在方差分析中,要研究分类型自变量对因变量的影响,在形式上就转化为了检验不同总体(因素的不同水平)的均值是否相等。
单因素方差分析
当方差分析中只涉及一个分类型自变量时称为单因素方差分析。
进行方差分析的基本假设
- 每个样本的观测值服从正态分布
- 每个样本的方差 相同
- 每个样本中的个体相互独立
误差平方和
总平方和(SST),全部样本数据的误差大小的平方和。
组内平方和(SSE),组内样本误差大小的平方和。
组间平方和(SSA),组间样本误差大小的平方和。
SST=SSA+SSE
组内平方和SSE体现了随机抽样因素对总方差的贡献,而组间平方和SSA体现了随机因素和不同水平对总方差的贡献。如果SSA比SSE大很多,达到一定的显著性水平,可以认为因素的不同水平对因变量影响显著。
SST:全部观测值与总均值的误差平方和,计算公式为: