binomial检验_属性数据分析 | 第五章-logistic回归模型的构建及应用-02-模型检验

最新推荐文章于 2023-01-27 16:27:42 发布

weixin_39580682

最新推荐文章于 2023-01-27 16:27:42 发布

阅读量1.2k

点赞数

文章标签： binomial检验

本文链接：https://blog.csdn.net/weixin_39580682/article/details/112458343

版权

这一节的主要内容有：模型比较的似然比检验、拟合优度检验与偏差、未分组数据的检验方法、logit模型的残差、logistic回归的影响诊断。每一点都会用例子来辅助理解。

模型比较的似然比检验

似然比检验是我们的老朋友啦！它比较的是一个特定模型与更复杂的模型，如果更复杂的模型没有拟合得更好，那么就一定程度上保证了所选的模型是充分的。什么是更复杂的模型呢？——包含非线性效应，如二次项、交互项等等。

栗子：母鲎及其追随者

考虑只用宽度来预测具有追随者的概率的模型为：

，一种检验就是比较这个简单模型与具有二次项的模型：

。

> library(cdabookdb)
> data(horseshoecrabs)
> m1=glm(Satellites>0~Width,data=horseshoecrabs,family=binomial())
> m2=glm(Satellites>0~Width+I(Width^2),data=horseshoecrabs,family=binomial())
> summary(m1)

Call:
glm(formula = Satellites > 0 ~ Width, family = binomial(), data = horseshoecrabs)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.0281  -1.0458   0.5480   0.9066   1.6942  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -12.3508     2.6287  -4.698 2.62e-06 ***
Width         0.4972     0.1017   4.887 1.02e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 225.76  on 172  degrees of freedom
Residual deviance: 194.45  on 171  degrees of freedom
AIC: 198.45

Number of Fisher Scoring iterations: 4

> summary(m2)

Call:
glm(formula = Satellites > 0 ~ Width + I(Width^2), family = binomial(), 
    data = horseshoecrabs)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1185  -1.0441   0.5067   0.9483   1.5406  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) 14.59156   30.22371   0.483    0.629
Width       -1.59572    2.35195  -0.678    0.497
I(Width^2)   0.04047    0.04566   0.886    0.375

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 225.76  on 172  degrees of freedom
Residual deviance: 193.63  on 170  degrees of freedom
AIC: 199.63

Number of Fisher Scoring iterations: 5

可以看出

，并没有很强的证据支持加入二次项。

似然比统计量为：

，我们没有充分的证据去拒绝原假设

，因此二次项并不是必须的。

拟合优度检验与偏差

一种探测模型拟合不佳的方式是探索模型表现欠佳的所有方式。一种拟合优度检验是比较模型的拟合值与真实数据。这其实是把数据本身当做最复杂的模型，每一个观测都会有一个对应的参数。

记工作模型为

，为了检验

的拟合，我们检验在饱和模型中但是不在

中的

所有参数是否都为

。这个检验的似然比统计量就是模型的偏差。某些情况下，似然比统计量服从大样本卡方分布。

当预测变量都是二元属性变量的时候，数据可以由列联表中的频数来概括。对于预测变量第

组的

个个体，用两种属性结果的估计概括乘以

就可以得到两个该组的两个拟合值。

偏差统计量的形式为：
皮尔逊统计量的形式为：

对于固定个数的分组，当拟合频数都不小于

的时候，上述两个统计量都在原假设成立的前提下服从卡方分布。自由度为饱和模型与工作模型参数个数的差值。当两个统计量较大的时候，说明工作模型拟合不及饱和模型。

当拟合值非常

最低0.47元/天解锁文章

weixin_39580682

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
binomial检验_属性数据分析 | 第五章-logistic回归模型的构建及应用-02-模型检验

这一节的主要内容有：模型比较的似然比检验、拟合优度检验与偏差、未分组数据的检验方法、logit模型的残差、logistic回归的影响诊断。每一点都会用例子来辅助理解。模型比较的似然比检验似然比检验是我们的老朋友啦！它比较的是一个特定模型与更复杂的模型，如果更复杂的模型没有拟合得更好，那么就一定程度上保证了所选的模型是充分的。什么是更复杂的模型呢？——包含非线性效应，如二次项、交互项等等。栗子：母...
复制链接

扫一扫