转自个人微信公众号【Memo_Cleon】的统计学习笔记:重复测量数据分析系列:广义线性混合模型(GLMM)。
广义线性混合模型(GLMM)可以看做是广义线性模型和线性混合模型的融合,可以处理不呈正态也不独立的数据。
示例:某溶栓药物治疗20名急性脑梗死患者的疗效,采用随机、双盲、安慰剂平行对照设计,每组各10例,分别于治疗前及治疗后8周每周进行随访观测,观测指标为神经系统体征评分(MDNS)。示例来源:杨珉.李晓松等.医学和公共卫生研究常用多水平统计模型.北京:北京大学医学出版社,2007.5.
此次笔记只是演示广义线性混合效应模型在重复测量数据上的操作步骤,并不是一个完整的案例分析。示例一开始便建立完整的“全模型”,残差方差协方差结构则设定为不同时间点的纵向资料分析常见的一阶自回归,然后逐渐去除掉没有意义的因素。
用广义线性混合模型来分析这个连续型数据的重复测量的示例,本质上就是用广义线性混合模型(GLMM)来实现多层线性混合模型(LMM)而已。为了更好地理解模型参数代表的意义,我们先重新温习一下多层线性混合模型,本例全模型如下:
加入背景协变量age后,结果会有校正。在组合模型里面,截距γ00是Trtgj=0、ageij=0、timeij=0时结局测量MDNS的平均得分值。
这里要特别强调一下“变量取值=0”:在向模型中添加变量时,我们往往把分类变量作为因子(Factor)纳入,而连续变量作为协变量(Covariate)纳入。如果把分类变量作为协变量纳入,则会按连续变量处理,取值为分类变量各水平的赋值,同样如果把连续变量作为因子进行分析,则会把连续变量的取值作为其各个水平的赋值。对于按协变量纳入模型的变量而言,变量取值为0和赋值为0是一致的,如本例中的age和time,age=0表示年龄为0岁,time=0表示治疗前。但是对按因子纳入模型的而言,这里的“初始水平”或者说“取值=0的变量水平”指的是变量被设为参照的那个水平,STATA默认低水平为参照水平而且可以指定任意水平为参照,而SPSS一般默认高水平为参照水平,在广义模型里可以通过顺序排序进行调整,如本例的Trtg,在[构建选项]选项卡中分类预测因子默认是按升序排列的,其取值为0的水平表示Trtg=1(治疗组),γ00就是年龄为0岁(age=0)的治疗组(Trtg=1)的研究对象在治疗前(time=0)的MDNS均值,本例改为按降序排列,其取值为0的水平便表示Trtg=0(对照组),截距γ00是Trtgj=0、ageij=0、timeij=0时结局测量MDNS的平均得分值即年龄为0岁的对照组的研究对象在治疗前的MDNS均值,相应的γ01则是治疗组(Trtgj=1)与对照组(Trtgj=0)的年龄为0的研究对象在治疗前(time=0)MDNS的平均差异。在当前模型