从形式上看,方差分析是比较多个总体的均值是否相等,但从本质上它所研究的是变量之间的关系。在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中的主要方法之一。
1 方差分析引论
随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加(并非均值真的存在差别)。而方差分析则是同时考虑所有样本,排除了错误累积的概率,从而避免拒绝一个真实的原假设。
1 方差分析及其有关术语
方差分析(analysis ofvariance,ANOVA):通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
例:分析四个行业之间的服务质量是否有显著差异,即判断“行业”对”投诉次数“是否有显著影响。
上述问题可转换为:检验四个行业被投诉次数的均值是否相等。
在方差分析中,所要检验的对象称为因素或因子。因素的不同表现称为水平或处理。每个因子水平下得到的样本数据称为观测值。
在上例中,行业是要检验的对象,称为因素或因子;零售业、旅游业等行业的具体表现,称为水平或处理;在每个行业下得到的样本数据(被投诉次数)称为观察值。由于只涉及行业一个因素,因此称为单因素4水平的试验。
2 方差分析的基本思想和原理
为分析分类型自变量对数值型因变量的影响,需要从数据误差来源分析。
(1) 图形描述
(2) 误差分解
思想:通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。
组内误差:同一总体下,观测值的差异,反映了一个样本内部数据的离散程度。只含随机误差。
组间误差:不同总体之间的差异,反映了不同样本间的离散程度。是随机误差和系统误差的总和。
总平方和:反映全部数据误差大小的平方和,反映了全部观察值的离散状况。
总平方和(SST)=组内平方和(SSE)+组间平方和(SSA)
组内平方和也称误差平方和或残差平方和
组间平方和也称因素平方和
(3) 误差分析
以上例为例,如果不同行业对投诉次数没有影响,那么在组间误差中只包含随机误差,而没有组内误差,这时组间误差与组内误差经过平均后的数值就会接近1:1,反之,组间误差与组内误差的比值会大于1,当比值达到一定程度时,因素的不同水平之间即存在显著差异。
3 方差分析中的基本假定
方差分析中的三个基本假定:
(1) 每个总体都应服从正态分布。例:每个行业被投诉的次数必须服从正态分布。
(2) 各个总体的方差σ²必须相同。各组观察值是从具有相同方差的正态总体中抽取的。
(3) 观察值是独立的。
4 问题的一般提法
设因素有 k 个水平,每个水平的均值分别用
H 1 :μ 1 ,μ 2 ,...,μ k 不全相等 自变量对因变量有显著影响
2 单因素方差分析
根据所分析的分类型自变量的多少,方差分析可分为单因素方差分析和双因素方差分析。当方差分析中只涉及一个分类型自变量时称为单因素方差分析。
1 分析步骤
1 提出假设
2 构造检验的统计量
(1) 计算各样本的均值
令 n i 为第 i 个总体的样本量,
(2) 计算全部观测值的总均值
令总均值为 x ¯
x ¯ =∑ k i=1 ∑ n i j=1 x ij n
(3) 计算各误差平方和
总平方和: SST=∑ k i=1 ∑ n i j=1 (x ij −x ¯ ) 2
组间平方和: SSA=∑ k i=1 n i (x i ¯ −x ¯ ) 2
组内平方和: SSE=