R语言回归与分类(二)— 泊松回归

简介

当因变量只能取非负整数时,比如足球比赛的进球数:0,1,2,3,…。对于这种计数形式的因变量常用泊松回归进行建模。其模型如下:

87c07685f5fc461a9522f8d365e3f282.png

8d26cd8288444b8486c910d8478fdb0f.png R语言建模

set.seed(1010)
N <- 100
x1 <- rnorm(N)
x2 <- runif(N)
lambda <- exp(1+2*x1+3*x2)
y <- rpois(N,lambda)
sim.data <- data.frame(x1,x2,y)

 

model <- glm(y~.,family = "poisson",data = sim.data)
summary(model)

25b87685e7284090a74ee6ef2bde3e26.png

在泊松分布中期望与方差相等。当因变量的观测数据的方差大于泊松分布所预期的方差。这种情况被称为过度离散(Overdispersion),意味着数据的方差远大于其均值。

若模型中存在着过度离散情况可能会导致系数的标准差变小,从而使得系数的检验统计量变大,系数更容易显著,回归系数的假设检验变得不准,并且会使得系数的置信区间变小。可通过qcc包进行检验

过度离散检验

 

library(qcc)
qcc.overdispersion.test(sim.data$y,type="poisson")

由于观测方差为预期方差的531.8713倍,p-value值远小于0.01,说明拒绝原假设,存在着过度离散的情况。

153575abff0b4db294339333bb75ba3d.png

model1 <- glm(y~.,family = "quasipoisson",data = sim.data)
summary(model1)

 86fee40966734fdc9fe0da18f1f77738.png

基于quasi的方法计算得到的稳健标准误会导致各回归系数的标准差变大,会使得原先显著的系数值变得不显著,不会使得参数的估计值与先前模型的不同。

注:

1.当数据存在过度离散时也可采用负二项回归进行建模。

 2.若计数数据中存在大量的数字0,可考虑采用零膨胀泊松回归,可将其看作混合了逻辑回归与泊松分布的混合模型。 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值