目录
前面我们讲述得回归分析方法都要求因变量是连续变量,但很多情况下因变量是离散得而非连续得。例如,公司招聘人才时根据对应聘人员得特征做出录用或者不录用得评价、毕业学生对职业得选择等。这时就需要用到Logistic回归分析。根据因变量得离散特征:常用得Logistic回归分析方法有3终,包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。
13.1二元Logistic回归分析
我们经常会遇到因变量只有两种取值的情况,例如是否患病、是否下雨等,这时一般的线性回归分析将无法准确刻画变量之间的因果关系,需要用其他的回归分析方法来进行拟合模型。Stata的二项分类Logistic回归便是一种简便的处理二分类因变量问题的分析方法。
数据(案例13.1)给出了20名肾癌患者的相关数据。试用二分类Logistic回归分析方法分析患者肾细胞转移情况(有转移y=1、无转移y=0)与患者年龄、肾细胞癌血管内皮生长因子(其阳性表示由低到高3个等级)、肾细胞核组织学分级(由低到高共4级)、肾细胞癌组织内微血管数、肾细胞癌分期(由低到高共4期)之间的关系。
logit V1 V2 V3 V4 V5 V6 #本命令的含义时以V1为因变量,以V2 V3 V4 V5 V6 为自变量,进行二元Logistic回归分析,研究变量之间的因果影响关系。其中自变量的影响是以回归系数的形式输出的。
从上述分析结果可以看出由20个样本参与了分析,模型的F值(5,14)=1.64,P值(Prob > F)= 0.2135,说明模型整体是不显著的。模型的可决系数(R-squared)为0.3695,模型的修正的可决系数(Adj R-squared)为0.1444,说明模型的解释能力也是比较差的。下面的不过多赘述哈。我们可以看出最小二乘线性模型的整体显著性、系数显著性以及模型的整体解释能力都是由较大提升看空间的。
可以得到最小二乘回归方程模型是:
V1 = -0.0061692*V2+。。。+0.7871698
logistic V1 V2 V3 V4 V5 V6 #本命令的含义是进行二元Logistic回归分析,研究变量之间的因果关系。其中自变量的影响是以(Odds Ratio)的形式输出的。
上图是以V1为因变量,以V2 V3 V4 V5 V6 为自变量,进行二元Logistic回归分析。其中,自变量的影响是以优势比(Odds Ratio)的形式输出的。从上图可以看出Logistic相对于最小二乘回归模型得到了很大程度的改进。。模型的整体显著性P值达到了9%左右(Prob > chi2 = 0.0934)伪R方达到了35%(Pseudo R2 = 0.3500),解释能力得到了进一步提高。各个变量系数的显著程度也有不同程度的提高。
与一般的回归形式不同,此处自变量的影响是以优势比的形式输出的。它的含义是:在自变量保持不变的条件下,被观测自变量每增加1个单位时y=1的发成比的变化倍数。可以看出,各个变量中只有V6变量的增加回引起因变量取1值得大于1倍得增加,这说明只有V6是与因变量呈现正向变化,只有V6使得因变量取1得概率更大。
logit V1 V2 V3 V4 V5 V6 #本命令得含义是进行二元Logistic回归分析,研究变量之间得因果影响关系。其中变量得影响是以回归系数得形式输出得。
上图可以看出该模型与使用Logistic命令回归得到得结果是一致得,只是自变量影像输出得形式由优势比换成了回归系数。