logistic回归模型总结

 logistic回归模型是最成熟也是应用最广泛的分类模型,通过学习和实践拟通过从入门、进阶到高级的过程对其进行总结,以便加深自己的理解也为对此有兴趣者提供学习的便利。

一、有关logistic的基本概念

  logistic回归主要用来预测离散因变量与一组解释变量之间的关系

最常用的是二值型logistic。即因变量的取值只包含两个类别 例如:好、坏 ;发生、不发生;常用Y=1或Y=0表示 X表示解释变量则

P(Y=1|X)表示在X的条件下Y=1的概率,logistic回归的数学表达式为:

log(p/1-p)=A+BX =L其中p/1-p称为优势比(ODDS) 即发生与不发生的概率之比

可以根据上式反求出P(Y=1|X)=1/(1+e^-L)

根据样本资料可以通过最大似然估计计算出模型的参数

然后根据求出的模型进行预测

下面介绍logistic回归在SAS中的实现以及输出结果的解释

二、logistic回归模型初步

SAS中logistic回归输出结果主要包括预测模型的评价以及模型的参数

预测模型的评价与多元线性回归模型的评价类似主要从以下几个层次进行

(1)模型的整体拟合优度

主要评价预测值与观测值之间的总体一致性。可以通过以下两个指标来进行检验

1、Hosmer-Lemeshowz指标

        HL统计量的原假设Ho是预测值和观测值之间无显著差异,因此HL指标的P-Value的值越大,越不能拒绝原假设,即说明模型很好的拟合了数据。

在SAS中这个指标可以用LACKFIT选项进行调用

2、AIC和SC指标 即池雷准则和施瓦茨准则

         与线性回归类似AIC和SC越小说明模型拟合的越好

(2)从整体上看解释变量对因变量有无解释作用

          相当于多元回归中的F检验 在logistic回归中可以通过似然比(likelihood ratio test)进行检验

(3)解释变量解释在多大程度上解释了因变量

          与线性回归中的R^2作用类似 在logistic回归中可以通过Rsquare 和C统计量进行度量

在SAS中通过Rsquare来调用Rsquare。 C统计量自动输出

 (4) 模型评价指标汇总

 统计量          趋势          拟合                         作用                                           SAS调用命令                                备注

 AIC 、SC     越小          越好      类似与多元回归中的残差平方和               模型自动输出       

似然比卡方   越大         越好        类似与多元回归中的回归平方和               自动输出                               P值越小越好

RSQUARE   越大         越好        类似与多元回归中的R^2      用RSQ选项调用

C统计量  越大  越好  度量观测值和条件预测的相对一致性    自动输出

HL统计量 越小  越好  度量观测值和预测值总体的一致性            用LACKFIT选项调用            P值越大越好

说明:在实践中,对以上统计量最为关注的是C统计量,其次是似然比卡方,最后才是HL统计量。AIC和

RSQUAER极少关注,这一点和多元线性回归有很大的区别。根本原因就是多元线性回归模型是一个预测模型,目标变量的值具有实际意义;而logistic是一个分类模型,目标变量只是一个分类标识,因此更关注预测值和预测值之间的相对一致性而不是绝对一致性。(注:引自姚志勇的《SAS编程与数据挖掘商业案例》)

(5)以SAS帮助中例子为例对输出结果进行解释说明

data Remission;
      input remiss cell smear infil li blast temp;
      cards;

   1   .8   .83  .66  1.9  1.1     .996
   1   .9   .36  .32  1.4   .74    .992
   0   .8   .88  .7    .8   .176   .982
   0  1     .87  .87   .7  1.053   .986
   1   .9   .75  .68  1.3   .519   .98
   0  1     .65  .65   .6   .519   .982
   1   .95  .97  .92  1    1.23    .992
   0   .95  .87  .83  1.9  1.354  1.02
   0  1     .45  .45   .8   .322   .999
   0   .95  .36  .34   .5  0      1.038
   0   .85  .39  .33   .7   .279   .988
   0   .7   .76  .53  1.2   .146   .982
   0   .8   .46  .37   .4   .38   1.006
   0   .2   .39  .08   .8   .114   .99
   0  1     .9   .9   1.1  1.037   .99
   1  1     .84  .84  1.9  2.064  1.02
   0   .65  .42  .27   .5   .114  1.014
   0  1     .75  .75  1    1.322  1.004
   0   .5   .44  .22   .6   .114   .99
   1  1     .63  .63  1.1  1.072   .986
   0  1     .33  .33   .4   .176  1.01
   0   .9   .93  .84   .6  1.591  1.02
   1  1     .58  .58  1     .531  1.002
   0   .95  .32  .3   1.6   .886   .988
   1  1     .6   .6   1.7   .964   .99
   1  1     .69  .69   .9   .398   .986
   0  1     .73  .73   .7   .398   .986
   ;
run;

proc logistic data= Remission desc;

model  remiss=cell smear infil li blast temp

                       /selection=stepwise

                       lackfit

                      Rsquare;

run;

输出结果如下:红色字体是对输出结果的注释

(一)

SAS 系统

The LOGISTIC Procedure

                                                       SAS 系统

                                                The LOGISTIC Procedure


Model Information
Data SetWORK.TEST    (注:指明模型所用的数据集)
Response VariableTRAD (注:指明模型的因变量)Complete Remission
Number of Response Levels2          (注:指明模型因变量取两类值)
Modelbinary logit (注:指明模型是二分类logistic回归模型)
Optimization TechniqueFisher's scoring (注:指明采用的是fisher优化方法)

Number of Observations Read165
Number of Observations Used165


Response Profile
Ordered
Value
remissTotal
Frequency
1182
2083
(注:指明因变量的取值类型及取每一类变量的频数)


Probability modeled is remiss=1.(注:这个要关注 指明了模型求的是在自变量作用下因变量remiss=1的概率)
(二)
Stepwise Selection Procedure(注:逐步回归的选择过程,说明了模型是怎么一步步根据一定的原则来选择最终进入模型的变量的)

Step 0. Intercept entered:(注:第一步只包含截距项而无变量时时的结果)

Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.
(注:用来判断模型的收敛状态的,也就是说经过迭代模型是否求得了参数satisfied说明收敛了,unsatisfied说明没收敛)
-2 Log L=228.733


Residual Chi-Square Test
Chi-SquareDFPr > ChiSq
62.19114<.0001

Step 1. Effect FAC4_1 entered:(变量FAC4_1进入模型)


Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.



Model Fit Statistics
CriterionIntercept
Only
Intercept
and
Covariates
AIC230.733105.210
SC233.838111.422
-2 Log L228.733101.210

(注:AIC、SC和-2 Log L都变小了说明加入变量FAC4_1后模型拟合的更好了)

R-Square0.5383Max-rescaled R-Square0.7178



Testing Global Null Hypothesis: BETA=0
TestChi-SquareDFPr > ChiSq
Likelihood Ratio127.52261<.0001
Score58.45681<.0001
Wald37.81541<.0001

(注:原假设是所有变量的参数为0 ,根据检验结果可以看出P<0.001拒绝原假设,即变量的参数不全为0)

Residual Chi-Square Test
Chi-SquareDFPr > ChiSq
11.257230.0104

接下来的跟上面的一样都是些变量的选择过程,进进出出的

(三)最终的结果如下

Note:No effects for the model in Step 1 are removed.




Step 2. Effect FAC3_1 entered:



Summary of Stepwise Selection
StepEffectDFNumber
In
Score
Chi-Square
Wald
Chi-Square
Pr > ChiSqVariable
Label
EnteredRemoved
1FAC4_1
1158.4568
<.0001FAC4_1
2FAC3_1
128.9660
0.0028FAC3_1


Analysis of Maximum Likelihood Estimates
ParameterDFEstimateStandard
Error
Wald
Chi-Square
Pr > ChiSq
Intercept1-2.64040.509226.8906<.0001
FAC3_11-1.18460.48435.98250.0144
FAC4_11-4.72360.792435.5318<.0001


Odds Ratio Estimates
EffectPoint Estimate95% Wald
Confidence Limits
FAC3_10.3060.1180.790
FAC4_10.0090.0020.042


Association of Predicted Probabilities and
Observed Responses
Percent Concordant95.1Somers' D0.902
Percent Discordant4.9Gamma0.903
Percent Tied0.0Tau-a0.454
Pairs6806c0.951


Partition for the Hosmer and Lemeshow Test
GroupTotaltrad = 1trad = 0
ObservedExpectedObservedExpected
11700.011716.99
21700.291716.71
31741.171315.83
41702.931714.07
51786.82910.18
617811.0695.94
7171614.4912.51
8171716.3200.68
9171716.9100.09
10121212.0000.00


Hosmer and Lemeshow Goodness-of-Fit
Test
Chi-SquareDFPr > ChiSq
15.829080.0449


-2 Log L=34.372


Residual Chi-Square Test
Chi-SquareDFPr > ChiSq
9.460960.1493

未完待续

三、logistic回归模型进阶

四、logistic回归模型高阶

五、logistic回归案例


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值