对于一个自变量是分类变量Categorical Factor的回归模型,需要为该Factor的每个Level创建dummy variable。Contrast Matrix把每个Level映射为dummy variable的值。
我们看一个例子来感性认识下dummy variable和contrast matrix。
> library(datasets)
> str(ChickWeight)
Classes ‘nfnGroupedData’, ‘nfGroupedData’, ‘groupedData’ and 'data.frame': 578 obs. of 4 variables:
$ weight: num 42 51 59 64 76 93 106 125 149 171 ...
$ Time : num 0 2 4 6 8 10 12 14 16 18 ...
$ Chick : Ord.factor w/ 50 levels "18"<"16"<"15"<..: 15 15 15 15 15 15 15 15 15 15 ...
$ Diet : Factor w/ 4 levels "1","2","3","4": 1 1 1 1 1 1 1 1 1 1 ...
- attr(*, "formula")=Class 'formula' length 3 weight ~ Time | Chick
.. ..- attr(*, ".Environment")=
- attr(*, "outer")=Class 'formula' length 2 ~Diet
.
本文介绍了R语言中多元回归分析时如何处理分类变量,特别是对照编码(contrast coding)的概念。通过实例解释了dummy variable(哑变量)的原理,如Diet2、Diet3和Diet4的赋值规则,并展示了如何使用`contrasts`函数查看Factor的对照矩阵。在4个Level的Diet因素中,通过创建3个dummy variable来表示每个Level,以适应线性模型的需求。
最低0.47元/天 解锁文章
204

被折叠的 条评论
为什么被折叠?



