binomial检验_属性数据分析 | 第五章-logistic回归模型的构建及应用-02-模型检验

c8bbe330665e59753c8cc16b356675f4.png

这一节的主要内容有:模型比较的似然比检验、拟合优度检验与偏差、未分组数据的检验方法、logit模型的残差、logistic回归的影响诊断。每一点都会用例子来辅助理解。

模型比较的似然比检验

似然比检验是我们的老朋友啦!它比较的是一个特定模型与更复杂的模型,如果更复杂的模型没有拟合得更好,那么就一定程度上保证了所选的模型是充分的。什么是更复杂的模型呢?——包含非线性效应,如二次项、交互项等等。

栗子 :母鲎及其追随者

考虑只用宽度来预测具有追随者的概率的模型为:

,一种检验就是比较这个简单模型与具有二次项的模型:
> library(cdabookdb)
> data(horseshoecrabs)
> m1=glm(Satellites>0~Width,data=horseshoecrabs,family=binomial())
> m2=glm(Satellites>0~Width+I(Width^2),data=horseshoecrabs,family=binomial())
> summary(m1)

Call:
glm(formula = Satellites > 0 ~ Width, family = binomial(), data = horseshoecrabs)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.0281  -1.0458   0.5480   0.9066   1.6942  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -12.3508     2.6287  -4.698 2.62e-06 ***
Width         0.4972     0.1017   4.887 1.02e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 225.76  on 172  degrees of freedom
Residual deviance: 194.45  on 171  degrees of freedom
AIC: 198.45

Number of Fisher Scoring iterations: 4

> summary(m2)

Call:
glm(formula = Satellites > 0 ~ Width + I(Width^2), family = binomial(), 
    data = horseshoecrabs)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1185  -1.0441   0.5067   0.9483   1.5406  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) 14.59156   30.22371   0.483    0.629
Width       -1.59572    2.35195  -0.678    0.497
I(Width^2)   0.04047    0.04566   0.886    0.375

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 225.76  on 172  degrees of freedom
Residual deviance: 193.63  on 170  degrees of freedom
AIC: 199.63

Number of Fisher Scoring iterations: 5

可以看出

,并没有很强的证据支持加入二次项。

似然比统计量为:

,我们没有充分的证据去拒绝原假设
,因此二次项并不是必须的。

拟合优度检验与偏差

一种探测模型拟合不佳的方式是探索模型表现欠佳的所有方式。一种拟合优度检验是比较模型的拟合值与真实数据。这其实是把数据本身当做最复杂的模型,每一个观测都会有一个对应的参数。

记工作模型为

,为了检验
的拟合,我们检验在饱和模型中但是不在
中的
所有参数是否都为
。这个检验的似然比统计量就是模型的偏差。某些情况下,似然比统计量服从大样本卡方分布。

当预测变量都是二元属性变量的时候,数据可以由列联表中的频数来概括。对于预测变量第

组的
个个体,用两种属性结果的估计概括乘以
就可以得到两个该组的两个拟合值。
  • 偏差统计量的形式为:
  • 皮尔逊统计量的形式为:

对于固定个数的分组,当拟合频数都不小于

的时候,上述两个统计量都在原假设成立的前提下服从卡方分布。自由度为饱和模型与工作模型参数个数的差值。当两个统计量较大的时候,说明工作模型拟合不及饱和模型。

当拟合值非常

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我可以为您提供一个对lung数据集进行多元logistic回归分析并用c-index检验的R语言代码: ``` # 导入数据 library(survival) data(lung) # 对数据进行预处理 lung$status <- ifelse(lung$status == 1, 0, 1) lung$ph.karno <- ifelse(is.na(lung$ph.karno), median(lung$ph.karno, na.rm = TRUE), lung$ph.karno) lung$pat.karno <- ifelse(is.na(lung$pat.karno), median(lung$pat.karno, na.rm = TRUE), lung$pat.karno) lung$age <- ifelse(is.na(lung$age), median(lung$age, na.rm = TRUE), lung$age) # 划分数据集 set.seed(123) train_index <- sample(1:nrow(lung), size = round(nrow(lung) * 0.7), replace = FALSE) train_data <- lung[train_index, ] test_data <- lung[-train_index, ] # 构建模型 fit <- glm(status ~., data = train_data, family = binomial(link = 'logit')) # 预测测试集 prob <- predict(fit, newdata = test_data, type = "response") # 计算c-index concord <- 0 discord <- 0 for(i in 1:(nrow(test_data) - 1)){ for(j in (i + 1):nrow(test_data)){ if(test_data$status[i] == test_data$status[j]){ next } if(test_data$status[i] < test_data$status[j]){ if(prob[i] > prob[j]){ concord <- concord + 1 }else if(prob[i] < prob[j]){ discord <- discord + 1 } }else{ if(prob[i] > prob[j]){ discord <- discord + 1 }else if(prob[i] < prob[j]){ concord <- concord + 1 } } } } c_index <- (concord + 0.5 * discord) / (concord + discord) # 打印c-index cat("C-index:", c_index, "\n") ``` 这段代码首先导入了survival库和lung数据集,然后对数据集进行了预处理,包括将status变量的值反转、缺失值替换为中位数等。接着使用set.seed()函数将随机数生成器的种子设置为123,然后随机将数据集划分为训练集和测试集。接下来构建了多元logistic回归模型,并使用predict()函数对测试集进行预测。最后,使用嵌套循环计算c-index,并将其打印出来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值