logistic regression_Logistic回归系列——案例分析

最新推荐文章于 2024-08-24 18:06:30 发布

weixin_39882394

最新推荐文章于 2024-08-24 18:06:30 发布

阅读量2k

点赞数

文章标签： logistic regression logistic回归分析 r

本文通过一个具体的案例，探讨了如何运用多元Logistic回归模型来分析工薪族选择公交或自行车上下班的行为。研究考虑了年龄、月收入和性别等因素，并通过SPSS软件进行了实际的数据分析过程展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

案例分析：

传统的出行行为研究主要集中在因素对于出行者行为的影响程度分析，利用多元logistic回归模型结果分析单一因素或特定情境下的方式选择行为变化。本案例侧重于研究多因素协同作用下的居民出行选择行为，通过建立多元logistic回归模型分析对出行者选择交通方式具有显著影响的因素，定量显示各影响因素的影响程度大小以及各类出行者的选择意向变化率。通过计算各类人群的交通方式选择概率，从而根据交通环境制定更有针对性的交通供给与管理措施。在一个关于公共交通的社会调查中，一个调查项目是“乘坐公共汽车上下班，还是骑自行车上下班”，调查对象为工薪族群体，研究者要将“年龄”、“月收入”、“性别”三个变量作为潜在影响因素，出行意愿为y，进行logistic回归分析，数据如下图所示。（注：在主页面，回复20200511即可获取案例数据）

因变量“y=1”表示主要乘坐公共汽车，“y=0”表示主要骑自行车；自变量为年龄x1，月收入x2，性别x3，其中x3=1表示“男性”，“x3=0”表示女性。现利用此数据建立y与自变量间的logistic逻辑回归方程，首先可以明确的是，该模型为多元logistic回归模型。其模型表达式为：

且j为0或1。

影响显著性分析：

建立模型前，需要对数据进行相关性检验，筛选对居民选择行为有显著影响的因素作为特征变量带入模型。计算各因素与出行方式选择结果的相关性。

操作步骤：

（1）按照顺序：Analyze-Regression-Binary Logistic（分析→回归→多元logistic），打开Logistic菜单，如下图所示。将数据导入SPSS中，点击分析→回归→多元logistic。

（2）在Logistic Regression主对话框中，将“y”选入到“因变量”框中，将“年龄”、“月收入”、“性别”选入到“Covariates”框中。其他采用默认选项。点击“确定”。

结果分析：

关于模型拟合优度的度量以及模型参数检验的分析，需要注意的是，与拟合优度检验不同，Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组，然后根据观测频数和期望频数构造卡方统计量（即Hosmer和Lemeshow的拟合优度检验统计量，简称H-L拟合优度检验统计量），最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。

如果该P值小于给定的显著性水平（如=0.05），则拒绝因变量的观测值与模型预测值不存在差异的零假设，表明模型的预测值与观测值存在显著差异，如果值大于1，我们没有充分的理由拒绝零假设，表明在可接受的水平上模型的估计拟合了数据。在本期案例中，首次输出结果如下：