poisson回归中的offset项是为了更方便的研究“率”。
某一个变量虽然服从poisson分布,但他的发生受暴露的影响,比如肿瘤的发生数受观察人年数的影响。
可能你想研究的是肿瘤发生率与各因素的关系,但是由于是发生数case服从poisson分布,而不是率服从poisson分布,所以最后只能写成下式:
反映在R代码中即为:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
证明:log(rate)=θ‘x 等价于 log(case) = log(exposure) + θ‘x
如果写成
glm(I(y/exposure)~ x, family=poisson(link=log) )
是不对的,也会使结果失去意义