方差分析
0X00 前言
方差分析又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
0X01 原理与思想
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。
方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
用均方(离差平方和除以自由度)代替离差平方和以消除各组样本数不同的影响,则方差分析就是用组间均方去除组内均方的商(即F值)与1相比较,若F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。
0X02 分析方法
根据资料设计类型的不同,有以下两种方差分析的方法:
-
对成组设计的多个样本均值比较,应采用完全随机设计的方差分析,即单因素方差分析。
-
对随机区组设计的多个样本均值比较,应采用配伍组设计的方差分析,即两因素方差分析 。
两种方法的异同:
两类方差分析的基本步骤相同,只是变异的分解方式不同,对成组设计的资料,总变异分解为组内变异和组间变异(随机误差),即:SS总=SS组间+SS组内,而对配伍组设计的资料,总变异除了分解为处理组变异和随机误差外还包括配伍组变异,即:SS总=SS处理+SS配伍+SS误差。
基本步骤:
整个方差分析的基本步骤如下:
1、建立检验假设;
H0:多个样本总体均值相等;
H1:多个样本总体均值不相等或不全等。
检验水准为0.05。
2、计算检验统计量F值;
3、确定P值并作出推断结果。
0X03 方差分析分类
3.1 单因素方差分析
是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。
第一步是明确观测变量和控制变量,第二步是剖析观测变量的方差。方差分析认为:观测变量值的变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。
单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。
原理总结:
在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。
分析步骤:
1、提出原假设:H0——无差异;H1——有显著差异
2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。
3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。
4、给定显著性水平,并作出决策。
在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。
方差齐性检验
是对控制变量不同水平下各观测变量总体方差是否相等进行检验。
前面提到,控制变量不同水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求,就不能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。
SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。
多重比较检验:
单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的,等等。
多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。
3.2 多因素方差分析
多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。
在SPSS中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法,它将控制变量不同水平下的观测变量值看做来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。
0X04 总结
方差分析中的原假设是:协变量对观测变量的线性影响是不显著的;在协变量影响扣除的条件下,控制变量各水平下观测变量的总体均值无显著差异,控制变量各水平对观测变量的效应同时为零。检验统计量仍采用F统计量,它们是各均方与随机因素引起的均方比。
加粗样式