使用Logistic模型前,需判断是否满足以下七个研究假设:假设1:因变量即结局是二分类变量。
假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。
假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。
假设4:最小样本量要求为自变量数目的15倍,也有一些研究者认为样本量应达到自变量数目的50倍
假设5:连续的自变量与因变量的logit转换值之间存在线性关系。
假设6:自变量间不存在共线性。
假设7:没有明显的离群点、杠杆点和强影响点。
因为题主问的是如何使用SPSS来操作以及结果如何解释,下面主要讲一下SPSS的操作方法和结果解释。对以上研究假设的验证就不再详述了。
一、问题与数据
某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系,开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组,选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息:性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析?
表1. 肺癌危险因素分析研究的变量与赋值
表2. 部分原始数据
二、对问题分析
该设计中,因变量为二分类,自变量(病例对照研究中称为暴露因素)有二分类变量(性别、BMI和是否吸烟)、连续变量(年龄)和有序多分类变量(COPD病史)。要探讨二分类因变量与自变量之间的关系,应采用二分类Logistic回归模型进行分