方差分析ANOVA-analysis of variance
方差分析的基本原理:主要是研究一个或多个分类变量对因变量的影响,并结合假设检验方法来解释和分析自变量对因变量的影响是否具有显著性。
所谓的假设,就是针对分类变量水平(总体),假设每个总体的均值是否相等或不完全相等,如果相等的话,那么分类自变量对因变量的影响无显著性,否则反之。
因素,俗称‘变量’; 水平,俗称‘变量取值’;
方差分析中有3个基本假定:
- 每个总体都应服从正态分布;
- 各个总体的方差必须相同;
- 观测值是独立的;
单因素方差分析(单变量方差分析)
单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响。
单因素方差分析-分析步骤
为检验自变量对因变量是否有显著影响,首先需要提出‘两个变量在总体中没有关系’的原假设,然后构造一个用于检验的统计量来检验这一假设是否成立。
在方差分析中,原假设所描述的是按照自变量的取值分成的类中,因变量的均值相等。因此,检验因素(自变量)的个取值(水平)或(总体)的均值是否相等,需要提出以下假设:
(1)提出假设
自变量对因变量没有显著影响
自变量对因变量有显著影响
(2)构造检验的统计量
- 计算各个水平(总体)的均值(自变量各个取值对应因变量的均值, 代表某个水平)
- 计算全部观测值的总均值(即因变量的均值)
- 计算各误差平方和(总平方和、组间平方和、组内平方和)
总平方和SST,反映了全部观测值与其均值之间的差异。
组间平方和SSA,又称因素平方和,它反映了各个水平(总体)的均值与全部观测值的总均值之间的差异程度。
组内平方和SSE,又称误差平方和 或 残差平方和,它是每个水平或组的各样本数据与其组均值的误差平方和,反映每个样本个观测值的离散程度,该平方和反映了随机误差的大小。
三个平方和之间的关系为:
SST = SSA + SSE
从三个误差平方和可以看出,
SSA是对随机误差和系统误差大小的度量,它反映了自变量对因变量的影响,也称为自变量效应或因子效应;
SSE是对随机误差大小的度量,它反映了除自变量对因变量的影响之外其他因素对因变量的总影响,也称为残差变量,它引起的误差称为残差效应;
SST是对全部数据总误差程度的度量,它反映了自变量和残差变量的共同影响,因此它等于自变量效应加残差效应。
- 计算统计量
注意:由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是各平方和除以它们所对应的自由度,这一结果称为均方,也称为方差。
为全部观测值的个数;
为因素水平(总体)个数;
组间均方MSA:
组内均方MSE:
检验统计量F:
(3)作出统计决策
根据给定的显著性水平,在F分布表中查找与分子自由度、分母自由度相应的临界值。
若,则拒绝原假设,表明之间的差异是显著的,也就是说,所检验的因素对因变量有显著影响;
若,则不拒绝原假设,没有证据表明之间有显著差异,也就是说,这时还不能认为所检验的因素对观测值有显著影响;
双因素方差分析(双变量方差分析)
双因素方差分析研究的是两个分类型自变量对一个数值型因变量的影响。
无交互式作用的双因素方差分析(无重复双因素分析)
无重复双因素分析:假定两个因素对因变量的影响是独立的。
总平方和SST
行因素误差平方和SSR
列因素误差平方和SSC
误差平方和SSE
上述各平方和的关系为:
SST = SSR + SSC + SSE
为全部观测值的个数;
为行因素水平(总体)个数;
为列因素水平(总体)个数;
行因素的均方MSR
列因素的均方MSC
随机误差项的均方MSE
行因素的检验统计量
列因素的检验统计量
有交互式作用的双因素方差分析(可重复双因素分析)
注意: 考虑交互作用对因变量的影响。
总平方和SST
行因素误差平方和SSR
列因素误差平方和SSC
交互作用平方和SSRC
误差平方和SSE
SSE = SST - SSR - SSC - SSRC
为全部观测值的个数;
为行因素水平(总体)个数;
为列因素水平(总体)个数;
行因素的均方MSR
列因素的均方MSC
交互作用的均方MSE
随机误差项的均方MSE
行因素的检验统计量
列因素的检验统计量
交互作用的检验统计量