案例分析:
传统的出行行为研究主要集中在因素对于出行者行为的影响程度分析,利用多元logistic回归模型结果分析单一因素或特定情境下的方式选择行为变化。本案例侧重于研究多因素协同作用下的居民出行选择行为,通过建立多元logistic回归模型分析对出行者选择交通方式具有显著影响的因素,定量显示各影响因素的影响程度大小以及各类出行者的选择意向变化率。通过计算各类人群的交通方式选择概率,从而根据交通环境制定更有针对性的交通供给与管理措施。在一个关于公共交通的社会调查中,一个调查项目是“乘坐公共汽车上下班,还是骑自行车上下班”,调查对象为工薪族群体,研究者要将“年龄”、“月收入”、“性别”三个变量作为潜在影响因素,出行意愿为y,进行logistic回归分析,数据如下图所示。(注:在主页面,回复20200511即可获取案例数据)
因变量“y=1”表示主要乘坐公共汽车,“y=0”表示主要骑自行车;自变量为年龄x1,月收入x2,性别x3,其中x3=1表示“男性”,“x3=0”表示女性。现利用此数据建立y与自变量间的logistic逻辑回归方程,首先可以明确的是,该模型为多元logistic回归模型。其模型表达式为:
且j为0或1。
影响显著性分析:
建立模型前,需要对数据进行相关性检验,筛选对居民选择行为有显著影响的因素作为特征变量带入模型。计算各因素与出行方式选择结果的相关性。
操作步骤:
(1)按照顺序:Analyze-Regression-Binary Logistic(分析→回归→多元logistic),打开Logistic菜单,如下图所示。将数据导入SPSS中,点击分析→回归→多元logistic。
(2)在Logistic Regression主对话框中,将“y”选入到“因变量”框中,将“年龄”、“月收入”、“性别”选入到“Covariates”框中。其他采用默认选项。点击“确定”。
结果分析:
关于模型拟合优度的度量以及模型参数检验的分析,需要注意的是,与拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简称H-L拟合优度检验统计量),最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。
如果该P值小于给定的显著性水平(如=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异,如果值大于1,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。在本期案例中,首次输出结果如下:
年龄、月收入、性别是三个自变量,Wald统计量用于判断一个变量是否应该包含在模型中,其检验步骤包括:(1)提出假设;(2)构造Wald统计量;(3)作出统计判断。(S.E.为标准误差)
可知“月收入”一栏中的回归系数最不显著。鉴于此,接下来删除变量“月收入”,重新进行Logistic回归分析,用y对性别和年龄两个自变量做回归。具体操作步骤类似,结果如下:
从结果中可以看出,年龄和性别两个自变量都是显著的,因而最终的回归方程为
方程中表明了,女性(参考类)乘公共汽车的比例高于男性(β<0),年龄越高乘车的比例也越高。
分类表中表明:对“y=0”一类的正判概率为80%,对“y=1”一类的正判概率为69.2%,总的正判概率为75%,这说明模型的拟合的效果较好。
小结:本期我们用一个具体案例继续学习了logistic回归模型,现在我们已经能够用这个模型解决一些小的问题,下期我们将会给出使用logistic回归时的一些注意事项,使该方法能真正成为我们解决问题的一个有力工具。