简介
当因变量只能取非负整数时,比如足球比赛的进球数:0,1,2,3,…。对于这种计数形式的因变量常用泊松回归进行建模。其模型如下:
R语言建模
set.seed(1010)
N <- 100
x1 <- rnorm(N)
x2 <- runif(N)
lambda <- exp(1+2*x1+3*x2)
y <- rpois(N,lambda)
sim.data <- data.frame(x1,x2,y)
model <- glm(y~.,family = "poisson",data = sim.data)
summary(model)
在泊松分布中期望与方差相等。当因变量的观测数据的方差大于泊松分布所预期的方差。这种情况被称为过度离散(Overdispersion),意味着数据的方差远大于其均值。
若模型中存在着过度离散情况可能会导致系数的标准差变小,从而使得系数的检验统计量变大,系数更容易显著,回归系数的假设检验变得不准,并且会使得系数的置信区间变小。可通过qcc包进行检验
过度离散检验
library(qcc)
qcc.overdispersion.test(sim.data$y,type="poisson")
由于观测方差为预期方差的531.8713倍,p-value值远小于0.01,说明拒绝原假设,存在着过度离散的情况。
model1 <- glm(y~.,family = "quasipoisson",data = sim.data)
summary(model1)
基于quasi的方法计算得到的稳健标准误会导致各回归系数的标准差变大,会使得原先显著的系数值变得不显著,不会使得参数的估计值与先前模型的不同。
注:
1.当数据存在过度离散时也可采用负二项回归进行建模。
2.若计数数据中存在大量的数字0,可考虑采用零膨胀泊松回归,可将其看作混合了逻辑回归与泊松分布的混合模型。