R语言实战笔记--第九章方差分析

最新推荐文章于 2024-09-01 01:00:00 发布

Sevan_Li

最新推荐文章于 2024-09-01 01:00:00 发布

阅读量9.3k

点赞数 13

分类专栏： R 文章标签： r语言

本文链接：https://blog.csdn.net/gdyflxw/article/details/53944435

版权

本文详细介绍了R语言中的方差分析，包括单因素、多因素方差分析，协方差分析，以及重复测量方差分析和多元方差分析。通过实例展示了如何使用R的aov函数进行模型拟合，以及如何进行多重比较和假设检验。此外，还探讨了方差分析中的正态性、方差齐性检验和交互效应分析，以及如何利用lme4和nlme包处理复杂设计的方差分析问题。

摘要由CSDN通过智能技术生成

R语言实战笔记–第九章方差分析

标签（空格分隔）： R语言方差分析

术语

　　组间因子，组内因子，水平：组间因子和组同因子的区别是，组间因子对所有测试对象进行分组，而组内因子则把所有测试对象归为同一组，水平则是因子的分类值
　　单因素方差分析，多因素方差分析，协方差分析，多元方差分析，协变量：单因素，多因素都是一元方差分析，只有一个因变量(y),协方差分析也是，多元就是有多个因变量，协变量的意思其实就是不感兴趣或不能控制的变量，把它从自变量（可控制变量）中剔除出去的变量，它代表着每个测试对象的某些初始状态。
　　均衡设计，非均衡设计：分组时，各组的观测数若相同，则为均衡设计，否则为非均衡设计。
　　下面看两个图表，代表的是因子数、协变量、因变量的数目不同时，方差的叫法不同，以及一个书上的例子。
这里写图片描述

　　
　　

ANOVA模型拟合

　　模型拟合的函数方法是aov(formula,data=dataframe),其中formula的公式与回归拟合中的格式一样，只是少了一些幂级及变量替换的数据。
　　另外，需要十分注意的是，在方差分析中，formula公式的自变量（含协变量）顺序很重要，顺序很重要，顺序很重要！R中的计算效应的顺序为序贯型，即如公式：y~A+B+A:B，R将评价1）A对y的影响，2）控制A，B对于y的影响，3）控制A和B的主效应，A与B的交互效应。样本大小越不平衡，效应项的顺序对结果的影响就越大。越基础性的效应越需要放在前面，具体来说，就是协变量，然后是主效应，再然后是双因素交互效应，再然后是三因素交互效应，再然后是四因素……基础性，目前我的理解就是变量的水平越简单，比如性别（只有两个，三个也行）。直接引用R语言实战中的补充内容：《顺序很重要！》来解释一下顺序问题。

　　当自变量与其他自变量或者协变量相关时，没有明确的方法可以评价自变量对因变量的贡献。例如，含因子A、B和因变量y的双因素不平衡因子设计，有三种效应：A和B的主效应，A和B的交互效应。假设你正使用如下表达式对数据进行建模：
Y ~ A + B + A:B
　　有三种类型的方法可以分解等式右边各效应对y所解释的方差。
类型I（序贯型）
　　效应根据表达式中先出现的效应做调整。A不做调整，B根据A调整，A:B交互项根据A和B调整。
类型II（分层型）
　　效应根据同水平或低水平的效应做调整。A根据B调整，B依据A调整，A:B交互项同时根据A和B调整。
类型III（边界型）
　　每个效应根据模型其他各效应做相应调整。A根据B和A:B做调整，A:B交互项根据A和B调整。
　　R默认调用类型I方法，其他软件（比如SAS和SPSS）默认调用类型III方法。

　　
单因素方差分析
　　首先，我们要知道我们的数据结构，才可以使得aov来进行分析，以书中例子来看，它应该是属于我们第一章所说的融合后，即在数据框中只有一个变量存放观测结果，其它变量均为因子向量，它们的组合唯一确定观测结果的值。
　　其次，使用aggregate(fit,by,FUN)来对数据集进行均值、方差等函数来进行初步的统计描述，得出初步结论。
　　第三，使用aov(formula,data)来进行方差分析，检验各个水平间是否显著差异，若p值小于显著水平（一般取0.05），则为各水平间有显著差异，但是，方差分析函数aov并没有给出各个水平间的差异是否显著，所以需要继续分解。
　　第四，使用TukeyHSD(fit)函数（包含在基础包stats中）对数据进行多重比较，可以由结果直接得知，两两水平之间的显著差异
　　第五，作图，可以使用plot(Tukey