1.2.1Logistic回归实例

# logistic回归

实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量Y服从高斯分布,那么得到的是线性最小二乘回归,当随机变量服从伯努利分布,则得到的是Logistic回归。

R软件提供了拟合计算广义线性模型的函数glm(),其命令格式如下:fitted.model <- glm(formula, family=family.generator, data=data.frame) 其中,formula是拟合公式;family是分布族,即前面讲到的广义线性模型的种类,如正态分布、Poisson分布、二项分布等。


有了上面这些分布族和连接函数,我们就可以完成相应的广义线性模型的拟合问题。

1)正态分布 正态分布族的使用方法: fm <- glm(formula, family=gaussian(link=identity), data=data.frame) 其中,link=identity可以不写,因为正态分布的连接函数缺省值是恒等(identity)。事实上,整个参数family=gaussian也可以不写,因为分布族的缺省值就是正态分布。 注意:正态分布的广义线性模型实际上与线性模型是相同的,也就是 fm <- glm(formula, family=gaussian, data=data.frame) 与线性模型 fm <- lm(formula, data=data.frame)有完全相同的结果,但效率却低得多。

2)二项分布


logistic回归模型是一个非线性回归模型,自变量可以是连续变量,也可以是分类变量,或哑变量。但可以使用线性回归模型对参数进行估计,所以Logistic回归模型属于广义线性模型。

Logistic回归模型的公式为: fm <- glm(formula, family=binomial(link=logit), data=data.frame) 其中,link=logit可以不写,因为logit是二项分布族连接函数的缺省状态。

实例一、Norell实验,高压电线对牲畜的影响

#1、加载数据
norell<-data.frame( x=0:5, n=rep(70,6), success=c(0,9,21,47,60,63) )
norell$Ymat<-cbind(norell$success, norell$n-norell$success)  

#2、建模
glm.sol <- glm(Ymat ~ x, family=binomial, data=norell)

#3、模型评估
summary(glm.sol)
## 
## Call:
## glm(formula = Ymat ~ x, family = binomial, data = norell)
## 
## Deviance Residuals: 
##       1        2        3        4        5        6  
## -2.2507   0.3892  -0.1466   1.1080   0.3234  -1.6679  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -3.3010     0.3238  -10.20   <2e-16 ***
## x             1.2459     0.1119   11.13   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 250.4866  on 5  degrees of freedom
## Residual deviance:   9.3526  on 4  degrees of freedom
## AIC: 34.093
## 
## Number of Fisher Scoring iterations: 4
#与线性回归模型相同,在得到回归模型后,可以作预测:电流强度为3.5毫安时,有响应的牛的概率

#4、预测
pre <- predict(glm.sol, data.frame(x=3.5))
(p <- exp(pre)/(1+exp(pre)))
##        1 
## 0.742642
#求有50%的牛响应时的电流强度:当P=0.5时,ln(P/(1-P))=0,所以X=-b0/b1
glm.sol$coefficients
## (Intercept)           x 
##   -3.301035    1.245937
(X <- -glm.sol$coefficients[[1]]/glm.sol$coefficients[[2]])
## [1] 2.649439
#5、画出响应比例与logistic回归曲线:
d <- seq(0, 5, length=100)
pre <- predict(glm.sol, data.frame(x=d))
p <- exp(pre)/(1+exp(pre))
norell$y <- norell$success/norell$n
plot(norell$x, norell$y)
lines(d, p)

#其中,d是给出曲线横坐标的点,pre是计算预测值,p是相应的预测概率。用plot函数和lines给出散点图和对应的预测曲线。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值