R语言实战笔记–第九章 方差分析
标签(空格分隔): R语言 方差分析
术语
组间因子,组内因子,水平:组间因子和组同因子的区别是,组间因子对所有测试对象进行分组,而组内因子则把所有测试对象归为同一组,水平则是因子的分类值
单因素方差分析,多因素方差分析,协方差分析,多元方差分析,协变量:单因素,多因素都是一元方差分析,只有一个因变量(y),协方差分析也是,多元就是有多个因变量,协变量的意思其实就是不感兴趣或不能控制的变量,把它从自变量(可控制变量)中剔除出去的变量,它代表着每个测试对象的某些初始状态。
均衡设计,非均衡设计:分组时,各组的观测数若相同,则为均衡设计,否则为非均衡设计。
下面看两个图表,代表的是因子数、协变量、因变量的数目不同时,方差的叫法不同,以及一个书上的例子。
ANOVA模型拟合
模型拟合的函数方法是aov(formula,data=dataframe),其中formula的公式与回归拟合中的格式一样,只是少了一些幂级及变量替换的数据。
另外,需要十分注意的是,在方差分析中,formula公式的自变量(含协变量)顺序很重要,顺序很重要,顺序很重要!R中的计算效应的顺序为序贯型,即如公式:y~A+B+A:B,R将评价1)A对y的影响,2)控制A,B对于y的影响,3)控制A和B的主效应,A与B的交互效应。样本大小越不平衡,效应项的顺序对结果的影响就越大。越基础性的效应越需要放在前面,具体来说,就是协变量,然后是主效应,再然后是双因素交互效应,再然后是三因素交互效应,再然后是四因素……基础性,目前我的理解就是变量的水平越简单,比如性别(只有两个,三个也行)。直接引用R语言实战中的补充内容:《顺序很重要!》来解释一下顺序问题。
当自变量与其他自变量或者协变量相关时,没有明确的方法可以评价自变量对因变量的贡献。例如,含因子A、B和因变量y的双因素不平衡因子设计,有三种效应:A和B的主效应,A和B的交互效应。假设你正使用如下表达式对数据进行建模:
Y ~ A + B + A:B
有三种类型的方法可以分解等式右边各效应对y所解释的方差。
类型I(序贯型)
效应根据表达式中先出现的效应做调整。A不做调整,B根据A调整,A:B交互项根据A和B调整。
类型II(分层型)
效应根据同水平或低水平的效应做调整。A根据B调整,B依据A调整,A:B交互项同时根据A和B调整。
类型III(边界型)
每个效应根据模型其他各效应做相应调整。A根据B和A:B做调整,A:B交互项根据A和B调整。
R默认调用类型I方法,其他软件(比如SAS和SPSS)默认调用类型III方法。
单因素方差分析
首先,我们要知道我们的数据结构,才可以使得aov来进行分析,以书中例子来看,它应该是属于我们第一章所说的融合后,即在数据框中只有一个变量存放观测结果,其它变量均为因子向量,它们的组合唯一确定观测结果的值。
其次,使用aggregate(fit,by,FUN)来对数据集进行均值、方差等函数来进行初步的统计描述,得出初步结论。
第三,使用aov(formula,data)来进行方差分析,检验各个水平间是否显著差异,若p值小于显著水平(一般取0.05),则为各水平间有显著差异,但是,方差分析函数aov并没有给出各个水平间的差异是否显著,所以需要继续分解。
第四,使用TukeyHSD(fit)函数(包含在基础包stats中)对数据进行多重比较,可以由结果直接得知,两两水平之间的显著差异
第五,作图,可以使用plot(Tukey