1 基本概念
1.1 定义及应用
从形式上看,方差分析比较多个总体的均值是否相等,本质上是研究分类型自变量对数值型因变量的影响(eg:行业是否对被投诉次数有影响),与回归分析的方法有许多相同之处,但又有本质区别。在研究一个(或多个)分类型自变量与一个数值型因变量之间的关系时,方差分析就是其中的主要方法之一。方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
1.2 因子、水平
在方差分析中,所要检验的对象称为因素或因子(factor)。
因素的不同表现称为水平或处理(treatment)。
每个因子水平下得到的样本数据称为观察值。
下面是一个单因素4水平的试验:
1.3 误差分解
1.3.1 组内误差 SSE
- 来自水平内部的数据误差称为组内误差。
例如在上表中,零售业中抽取的7家企业之间的投诉次数是不同的,由于企业是随机抽取的,因此他们之间的差异可以看成是随机因素的影响造成的。
- 组内误差只含有随机误差。
1.3.2 组间误差 SSA
- 来自不同水平之间的数据误差称为组间误差。
- 这种差异可能是由抽样本身形成的随机误差,也可能是由行业本身的系统性误差造成的系统误差。组间误差是随机误差和系统误差的总和。
1.3.3 SST、SSE、SSA
-
1、反应全部数据误差大小的平方和称为总平方和,记为SST。
试验中,23家企业被投诉次数之间的误差平方就是总平方和,反应全部观测值的离散状况。
自由度为n-1,n为全部观测值的个数 -
2、反应组内误差大小的平方和称为组内平方和,也称为误差平方和或者残差平方和,记为SSE。
试验中,每个样本内部的数据平方和加在一起就是组内平方和,反应每个样本内各观察值的离散情况。
自由度为n-k,k为因素水平(总体)的个数 -
3、反应组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA。
组间误差可能是由抽样本身形成的随机误差,也可能是由行业本身的系统性因素造成的系统误差,因此,组间误差是随机误差和系统误差的总和。
试验中,四个行业被投诉次数之间的误差平方和就是组间平方和,反应了样本均值之间的差异程度。
自由度为k-1
SST = SSE + SSA
总结:
- SSA是对随机误差和系统误差大小的度量,它反映了自变量(行业)对因变量(被投诉数)的影响,也称为自变量效应****或因子效应。
- SSE是对随