好久没有更新文章了,因为同学们咨询的问题有点多,另一个原因就是自己实在太懒。。。。
今天继续给大家写广义估计方程式GEE。
In statistics, a generalized estimating equation (GEE) is used to estimate the parameters of a generalized linear model with a possible unknown correlation between outcomes.
上面的英文解释告诉我们,当我们想用广义线性模型的时候,突然发现我们的结局变量恐怕是有某种相关性的(比如重复测量,比如嵌套),我们就可以考虑广义估计方程了。
实例说明
还是来看例子:现在我手上有来自两个病区患有呼吸系统疾病共111个病人,分为治疗组和安慰剂组,进行纵向随访4次,每一次随访我们会记录病人情况(1 = good, 0 = poor)
于是得到我们的数据,大概长这样:

其中,我们的响应变量有4个,因为我们随访了4次嘛,拿到上面的数据,我现在问你治疗到底有没有作用?
你该如何分析上面的数据?
首先我们明确我们的研究问题是治疗效果,就是说我们想看治疗组A和安慰剂组P是不是在响应变量上有差异。
我们遇到的问题在于响应变量有4个,怎么办呢?
反正你肯定知道只选其中一个响应进行分析肯定是不对的,把4次响应求均值肯定也是不对的,4次响应都当作独立的观测肯定也是不对的。
我们必须想办法利用全部的响应变量,而且还需要考虑同一个人的4次响应之间的相关性。
嘿嘿,怎么做呢?
混合效应模型?
可以,不过今天我们的主角是广义估计方程式。
广义估计方程和混合模型的根本区别就在于它把并不是很关注组内的相关,而是把重点放在了对效应均值的建模上,为了更好地理解GEE我们先看两个概念:
The very crux of GEE is instead of attempting to model the within-subject covariance structure, to treat it as a nuisance and simply model the mean response.
方差函数与均值函数
假设我们有独立响应变量
与自变量矩阵
,且
与
有如下关系:
其中被称作均值函数,你把这个μ(⋅)想办法移到等号左边它就成了GLM中的连接函数。同时,我们假设