logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。
一、有关logistic的基本概念
logistic回归主要用来预测离散因变量与一组解释变量之间的关系
最常用的是二值型logistic。即因变量的取值只包含两个类别 例如:好、坏 ;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则
P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:
log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS) 即发生与不发生的概率之比
可以根据上式反求出P(Y=1|X)=1/(1+e^-L)
根据样本资料可以通过最大似然估计计算出模型的参数
然后根据求出的模型进行预测
下面介绍logistic回归在SAS中的实现以及输出结果的解释
二、logistic回归模型初步
SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数
预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行
(1)模型的整体拟合优度
主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验
1、Hosmer-Lemeshowz指标
HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。
在SAS中这个指标可以用LACKFIT选项进行调用
2、AIC和SC指标 即池雷准则和施瓦茨准则
与线性回归类似AIC和SC越小说明模型拟合的越好
(2)从整体上看解释变量对因变量有无解释作用
相当于多元回归中的F检验 在logistic回归中可以通过似然比(likelihood ratio test)进行检验
(3)解释变量解释在多大程度上解释了因变量
与线性回归中的R^2作用类似 在logistic回归中可以通过Rsquare 和C统计量进行度量
在SAS中通过Rsquare来调用Rsquare。 C统计量自动输出
(4) 模型评价指标汇总
统计量 趋势 拟合 作用 SAS调用命令 备注
AIC 、SC 越小 越好 类似与多元回归中的残差平方和 模型自动输出
似然比卡方 越大 越好 类似与多元回归中的回归平方和 自动输出 P值越小越好
RSQUARE 越大 越好 类似与多元回归中的R^2 用RSQ选项调用
C统计量 越大 越好 度量观测值和条件预测的相对一致性 自动输出
HL统计量 越小 越好 度量观测值和预测值总体的一致性 用LACKFIT选项调用 P值越大越好
说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。AIC和
RSQUAER极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。(注:引自姚志勇的《SAS编程与数据挖掘商业案例》)
(5)以SAS帮助中例子为例对输出结果进行解释说明
data Remission;
input remiss cell smear infil li blast temp;
cards;
1 .8 .83 .66 1.9 1.1 .996
1 .9 .36 .32 1.4 .74 .992
0 .8 .88 .7 .8 .176 .982
0 1 .87 .87 .7 1.053 .986
1 .9 .75 .68 1.3 .519 .98
0 1 .65 .65 .6 .519 .982
1 .95 .97 .92 1 1.23 .992
0 .95 .87 .83 1.9 1.354 1.02
0 1 .45 .45 .8 .322 .999
0 .95 .36 .34 .5 0 1.038
0 .85 .39 .33 .7 .279 .988
0 .7 .76 .53 1.2 .146 .982
0 .8 .46 .37 .4 .38 1.006
0 .2 .39 .08 .8 .114 .99
0 1 .9 .9 1.1 1.037 .99
1 1 .84 .84 1.9 2.064 1.02
0 .65 .42 .27 .5 .114 1.014
0 1 .75 .75 1 1.322 1.004
0 .5 .44 .22 .6 .114 .99
1 1 .63 .63 1.1 1.072 .986
0 1 .33 .33 .4 .176 1.01
0 .9 .93 .84 .6 1.591 1.02
1 1 .58 .58 1 .531 1.002
0 .95 .32 .3 1.6 .886 .988
1 1 .6 .6 1.7 .964 .99
1 1 .69 .69 .9 .398 .986
0 1 .73 .73 .7 .398 .986
;
run;
proc logistic data= Remission desc;
model remiss=cell smear infil li blast temp
/selection=stepwise
lackfit
Rsquare;
run;
输出结果如下:红色字体是对输出结果的注释
(一)
SAS 系统 |
The LOGISTIC Procedure
SAS 系统 |
The LOGISTIC Procedure
Model Information | ||
---|---|---|
Data Set | WORK.TEST (注:指明模型所用的数据集) | |
Response Variable | TRAD (注:指明模型的因变量) | Complete Remission |
Number of Response Levels | 2 (注:指明模型因变量取两类值) | |
Model | binary logit (注:指明模型是二分类logistic回归模型) | |
Optimization Technique | Fisher's scoring (注:指明采用的是fisher优化方法) |
Number of Observations Read | 165 |
---|---|
Number of Observations Used | 165 |
Response Profile | ||
---|---|---|
Ordered Value | remiss | Total Frequency |
1 | 1 | 82 |
2 | 0 | 83 |
Probability modeled is remiss=1.(注:这个要关注 指明了模型求的是在自变量作用下因变量remiss=1的概率)
(二)
Stepwise Selection Procedure(注:逐步回归的选择过程,说明了模型是怎么一步步根据一定的原则来选择最终进入模型的变量的)
Step 0. Intercept entered:(注:第一步只包含截距项而无变量时时的结果)
Model Convergence Status |
---|
Convergence criterion (GCONV=1E-8) satisfied. |
-2 Log L | = | 228.733 |
---|
Residual Chi-Square Test | ||
---|---|---|
Chi-Square | DF | Pr > ChiSq |
62.1911 | 4 | <.0001 |
Step 1. Effect FAC4_1 entered:(变量FAC4_1进入模型)
Model Convergence Status |
---|
Convergence criterion (GCONV=1E-8) satisfied. |
Model Fit Statistics | ||
---|---|---|
Criterion | Intercept Only | Intercept and Covariates |
AIC | 230.733 | 105.210 |
SC | 233.838 | 111.422 |
-2 Log L | 228.733 | 101.210 |
(注:AIC、SC和-2 Log L都变小了说明加入变量FAC4_1后模型拟合的更好了)
R-Square | 0.5383 | Max-rescaled R-Square | 0.7178 |
---|
Testing Global Null Hypothesis: BETA=0 | |||
---|---|---|---|
Test | Chi-Square | DF | Pr > ChiSq |
Likelihood Ratio | 127.5226 | 1 | <.0001 |
Score | 58.4568 | 1 | <.0001 |
Wald | 37.8154 | 1 | <.0001 |
(注:原假设是所有变量的参数为0 ,根据检验结果可以看出P<0.001拒绝原假设,即变量的参数不全为0)
Residual Chi-Square Test | ||
---|---|---|
Chi-Square | DF | Pr > ChiSq |
11.2572 | 3 | 0.0104 |
接下来的跟上面的一样都是些变量的选择过程,进进出出的
(三)最终的结果如下
Note: | No effects for the model in Step 1 are removed. |
Step 2. Effect FAC3_1 entered:
Summary of Stepwise Selection | ||||||||
---|---|---|---|---|---|---|---|---|
Step | Effect | DF | Number In | Score Chi-Square | Wald Chi-Square | Pr > ChiSq | Variable Label | |
Entered | Removed | |||||||
1 | FAC4_1 | 1 | 1 | 58.4568 | <.0001 | FAC4_1 | ||
2 | FAC3_1 | 1 | 2 | 8.9660 | 0.0028 | FAC3_1 |
Analysis of Maximum Likelihood Estimates | |||||
---|---|---|---|---|---|
Parameter | DF | Estimate | Standard Error | Wald Chi-Square | Pr > ChiSq |
Intercept | 1 | -2.6404 | 0.5092 | 26.8906 | <.0001 |
FAC3_1 | 1 | -1.1846 | 0.4843 | 5.9825 | 0.0144 |
FAC4_1 | 1 | -4.7236 | 0.7924 | 35.5318 | <.0001 |
Odds Ratio Estimates | |||
---|---|---|---|
Effect | Point Estimate | 95% Wald Confidence Limits | |
FAC3_1 | 0.306 | 0.118 | 0.790 |
FAC4_1 | 0.009 | 0.002 | 0.042 |
Association of Predicted Probabilities and Observed Responses | |||
---|---|---|---|
Percent Concordant | 95.1 | Somers' D | 0.902 |
Percent Discordant | 4.9 | Gamma | 0.903 |
Percent Tied | 0.0 | Tau-a | 0.454 |
Pairs | 6806 | c | 0.951 |
Partition for the Hosmer and Lemeshow Test | |||||
---|---|---|---|---|---|
Group | Total | trad = 1 | trad = 0 | ||
Observed | Expected | Observed | Expected | ||
1 | 17 | 0 | 0.01 | 17 | 16.99 |
2 | 17 | 0 | 0.29 | 17 | 16.71 |
3 | 17 | 4 | 1.17 | 13 | 15.83 |
4 | 17 | 0 | 2.93 | 17 | 14.07 |
5 | 17 | 8 | 6.82 | 9 | 10.18 |
6 | 17 | 8 | 11.06 | 9 | 5.94 |
7 | 17 | 16 | 14.49 | 1 | 2.51 |
8 | 17 | 17 | 16.32 | 0 | 0.68 |
9 | 17 | 17 | 16.91 | 0 | 0.09 |
10 | 12 | 12 | 12.00 | 0 | 0.00 |
Hosmer and Lemeshow Goodness-of-Fit Test | ||
---|---|---|
Chi-Square | DF | Pr > ChiSq |
15.8290 | 8 | 0.0449 |
-2 Log L | = | 34.372 |
---|
Residual Chi-Square Test | ||
---|---|---|
Chi-Square | DF | Pr > ChiSq |
9.4609 | 6 | 0.1493 |
未完待续
三、logistic回归模型进阶
四、logistic回归模型高阶
五、logistic回归案例