直接举个栗子:
考虑在数据集mtcars中内置的R语言。
在其中我们观察到汽车的每加仑英里数(mpg)取决于马力(“hp”)的值。
又观察到汽车的每加仑英里数(mpg)也取决于字段“am”表示传输的类型(自动或手动)。 它是值为0和1的分类变量。
对于以上,一个样本中的响应变量(因变量y),同时与多个预测变量(因变量x有关),如果有一些你并不真正关心、但有可能对因变量有影响的变量,你的调查研究中你可以将其作为协变量,这就意味着你控制了该变量对因变量的效应,从而可以考察自变量与因变量的真实关系。
协方差分析是加入协变量的方差分析,协变量实际上就是我们所说的控制变量
协方差分析与方差分析的区别:
- 协方差分析出了要设定协变量这专一点,其他方面与一般的方差分析属没有太大区别。
- 协变量是连续变量,方差分析是不能控制这种无关的连续变量的,所以协方差分析能够得到更可靠的研究结果
方差分析
继续回到开始给出的例子,我们首先要验证响应变量(因变量y)----汽车的每加仑英里数(mpg)与预测变量(自变量x)----马力(“hp”)&传输类型(“am”)有没有关系,那就首先需要用到方差分析来观察。
AOV()函数
AOV(formula,data)
- formula指响应变量与预测变量之间的关系表达
- data指变量来源的数据集
设计 | 表达式 |
---|---|
单因素ANOVA | y ~ A |
含单个协变量的单因素ANOVA | y ~ x + A |
双因素ANOVA | y ~ A * B |
含两个协变量的双因素ANOVA | y ~ x1 + x2 + A * B |
随机化区组 | y ~ B + A (B是区组因子) |
单因素组内ANOVA | y ~ A + Error(subject/A) |
含单个组内因子(W)和单个组间因子的重复测量ANOVA | y ~ B * W + Error(Subject/W) |
汽车的每加仑英里数(mpg)与马力(“hp”)的关系
输入:
input <- mtcars[,c("am","mpg",