Logistic回归
junjun
2016年2月8日
# logistic回归
实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量Y服从高斯分布,那么得到的是线性最小二乘回归,当随机变量服从伯努利分布,则得到的是Logistic回归。
R软件提供了拟合计算广义线性模型的函数glm(),其命令格式如下:fitted.model <- glm(formula, family=family.generator, data=data.frame) 其中,formula是拟合公式;family是分布族,即前面讲到的广义线性模型的种类,如正态分布、Poisson分布、二项分布等。
有了上面这些分布族和连接函数,我们就可以完成相应的广义线性模型的拟合问题。
1)正态分布 正态分布族的使用方法: fm <- glm(formula, family=gaussian(link=identity), data=data.frame) 其中,link=identity可以不写,因为正态分布的连接函数缺省值是恒等(identity)。事实上,整个参数family=gaussian也可以不写,因为分布族的缺省值就是正态分布。 注意:正态分布的广义线性模型实际上与线性模型是相同的,也就是 fm <- glm(formula, family=gaussian, data=data.frame) 与线性模型 fm <- lm(formula, data=data.frame)有完全相同的结果,但效率却低得多。
2)二项分布
logistic回归模型是一个非线性回归模型,自变量可以是连续变量,也可以是分类变量,或哑变量。但可以使用线性回归模型对参数进行估计,所以Logistic回归模型属于广义线性模型。
Logistic回归模型的公式为: fm <- glm(formula, family=binomial(link=logit), data=data.frame) 其中,link=logit可以不写,因为logit是二项分布族连接函数的缺省状态。
实例一、Norell实验,高压电线对牲畜的影响
#1、加载数据
norell<-data.frame( x=0:5, n=rep(70,6), success=c(0,9,21,47,60,63) )
norell$Ymat<-cbind(norell$success, norell$n-norell$success)
#2、建模
glm.sol <- glm(Ymat ~ x, family=binomial, data=norell)
#3、模型评估
summary(glm.sol)
##
## Call:
## glm(formula = Ymat ~ x, family = binomial, data = norell)
##
## Deviance Residuals:
## 1 2 3 4 5 6
## -2.2507 0.3892 -0.1466 1.1080 0.3234 -1.6679
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.3010 0.3238 -10.20 <2e-16 ***
## x 1.2459 0.1119 11.13 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 250.4866 on 5 degrees of freedom
## Residual deviance: 9.3526 on 4 degrees of freedom
## AIC: 34.093
##
## Number of Fisher Scoring iterations: 4
#与线性回归模型相同,在得到回归模型后,可以作预测:电流强度为3.5毫安时,有响应的牛的概率
#4、预测
pre <- predict(glm.sol, data.frame(x=3.5))
(p <- exp(pre)/(1+exp(pre)))
## 1
## 0.742642
#求有50%的牛响应时的电流强度:当P=0.5时,ln(P/(1-P))=0,所以X=-b0/b1
glm.sol$coefficients
## (Intercept) x
## -3.301035 1.245937
(X <- -glm.sol$coefficients[[1]]/glm.sol$coefficients[[2]])
## [1] 2.649439
#5、画出响应比例与logistic回归曲线:
d <- seq(0, 5, length=100)
pre <- predict(glm.sol, data.frame(x=d))
p <- exp(pre)/(1+exp(pre))
norell$y <- norell$success/norell$n
plot(norell$x, norell$y)
lines(d, p)
#其中,d是给出曲线横坐标的点,pre是计算预测值,p是相应的预测概率。用plot函数和lines给出散点图和对应的预测曲线。