一、方差分析的基本概念
方差分析是在20世纪20年代发展起来的一种统计方法,它是由英国统计学家费希尔在进行实验设计时为解释实验数据而首先引入的。
从形式上看,方差分析是比较多个总体的均值是否相等;但是其本质上是研究变量之间的相互关系。方差分析主要用于研究一个数值因变量与一个或多个分类自变量的关系。
根据方差分析的计算方法给方差分析下一个定义:
方差分析(analysis of variance ,ANOVA)就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
二、利用实例讲解方差分析的应用
假设某私立学校具有小学、初中、高中三个水平的学生,每个水平阶段的学生每个学期都会进行一次期末考试。另外假设小学共抽取10个班级,初中抽取9个班级,高中抽取8个班级。
每个班级期末考试的平均分分别用Ai(i=1,2,...,10)、Bj(j=1,2,...,9)和Ck(k=1,2,...,8)表示,为了比较各个水平阶段的班级平均分是否有显著性差异,就可以使用方差分析。
这里的阶段就是因素,也称之为因子,因子的三个取值:小学、初中、高中,称为水平或处理。
|
阶段 |
||
|
小学 |
初中 |
高中 |
1 |
90 |
87 |
80 |
2 |
90 |
88 |
79 |
3 |
89 |
90 |
80 |
4 |
88 |
78 |
89 |
5 |
89 |
89 |
87 |
6 |
91 |
90 |
86 |
7 |
96 |
80 |
89 |
8 |
88 |
81 |
83 |
9 |
80 |
82 |
|
10 |
90 |
|
|
为了更为直观地观察各水平平均值,绘制箱线图如下:
由于以上数据只涉及到一个分类自变量,即阶段,因此属于单因素方差分析。
从箱线图可以看出,各水平学生的平均分存在一定的差异,但是这种差异显著不显著,还需要进一步分析。
同时,各个水平的方差看起来也不尽相同。
二、方差分析的基本思想
由以上分析可以看出,虽然各个水平的学生平均分存在差异,但是其方差也有差别,方差分析的基本思想就是弄清楚影响因变量取值的误差来源,以判断是否是分类自变量对因变量产生影响。
在上述数据中,各组数据的误差主要来源于以下几个部分。
首先,即使是同一组的数据,其取值也具有差别,这是因为班级是随机抽取的,因此他们之间的差异可以看作是随机因素的影响造成的,或者说是由抽样的随机性造成的,这种来自水平内部的误差称之为组内误差,显然,组内误差只含有随机误差。
其次,各组的取值不同。来自不同水平之间的误差称为组间误差,这种差异可能来自于随机误差,也可能来自于因子本身的系统性误差造成的系统误差。因此,组内误差包含有可能包含两个方面,即随机误差和系统误差。
最后,总误差为组内误差与组间误差之和。
这样,就把造成因变量的差异的误差分解成组内误差和组间误差。
即
总误差=组内误差+组间误差
如果组内误差与组间误差相差太大,说明组间误差存在很大成分的系统误差,这时候就可以认为各水平均值显著不等。
将组间误差与总误差的比值定义为关系强度R2,即
R2=
将各平方和除以对应的自由度,则得到相应的均方,也称为方差。