1.线性模型和线性混合模型区别
线性模型的表达式为:pitch~age+ε.
即两部分:固定项age和误差项ε。
广义线性混合模型表达式为:pitch~age+(1|subject)+ε
三部分:固定项age,随机项(1|subject)和误差项ε。
为什么要加上一个随机项这部分呢?
在线性模型中我们将所有的不感兴趣的因素,非系统性的因素,不可预测的因素造成的误差统统由一个ε来代替。这样我们求出的模型的回归系数和截距就是一个定值,这个定值实际是一个平均值,这就导致了模型本身并不是特别的精确。为了进一步研究这个ε中哪些因素影响到了因变量,线性混合模型应运而生。也就是说,线性混合模型是对ε(误差项)的进一步的研究。
2.哪些因素是随机因素呢?什么样的样本数据适合用线性混合模型?
线性模型要求每个样本之间相对独立,但实际情况并不是这样。往往会出现时间相关或空间相关的样本。例如要研究吃辣能力,从三个地区中选择样本(人),则每个地区内部的人员的饮食习惯会大致相似,这叫组内相关。但三个地区人的吃辣能力不太相似,这才是组间独立。把从三个地区采集的样本当做研究样本就会发现,组内相关会导致数据不满足线性模型要求的每个样本之间相对独立的前提条件。这样的样本就不大适合用线性模型了。但是我们对组内相关又不是很感兴趣,但是它又确实影响着我们的调查。此时三个地区这个因素就不需要单独作为固定因素去研究,而是当做随机因素放在随机项中。此时地区这个因素我们称为空间相关。时间相关例子比如对一个人连续一个月测量身高,这样的样本是时间相关样本。
因此,那些影响因变量,但我们又不感兴趣或不是系统性的影响,而是具有不确定性,不可预测性的变量都可以当做随机因素放在随机项中。
3.如何表示随机项?
随机项表达式为(express|factor),其中express定义随机斜率,factor定义随机截距,factor一般是因子变量。
这里我们讨论lme4包内的lmer()函数。
这里我们假定音调(pitch)可由个体(subject),性别(sex),场合(place:formal,informal),礼貌度(1,2,3,4,5,6,7个等级)等因素影响。
每个个体的音调有差异,每个个体又必须是男或女一种,同时每个个体在不同场合,或同一场合又有不同的礼貌度,这些都会影响最后的音调高低。因此这里的数据就是采集了m个个体,在n个场合,采用k个礼貌度的数据。(这里由于对单个个体采集了多个样本,就存在空间相关性问题)
#这是一个线性模型,最简单
model=lm(pitch~sex+place,data=data.csv)
summary(model)
随机截距
#将个体当做随机因素,这样由于个体有m个水平(m个个体),因此会发现会产生m个截距值
#这里的1代表截距
model=lmer(pitch~sex+place+(1|subject),data=data.csv)
#查看结果
model
#查看系数
coef(model)
随机斜率
#下面将place作为固定因素,又作为随机因素。由于写在|前这里表示随机斜率。通过coef(model)函数
#可以发现place前面的系数有两个不同的值。
model=lmer(pitch~sex+place+(place|subject)+(1|subject)