当只考察一个自变量对因变量的影响时,我们称之为简单一元线性回归,如果要多考察一些自变量,此时许多人习惯性将之称为多元线性回归,统计学上建议称之为多重线性回归,避免和多元统计方法冲突。
案例背景介绍
这是mei国50个州关于犯罪率的一组数据,包括人口、面积、收入、文盲率、高中毕业率、霜冻天数、犯罪率共7个指标,现在我们想考察一下州犯罪率和其他因素间的关系。SPSS变量视图如下:
研究目标是各州的犯罪率(因变量),可能的因素(自变量)是人口、面积、收入、文盲率、高中毕业率、霜冻天数。因变量犯罪率连续数值变量,有多个自变量,从研究目标和数据类型来看,可选用多重线性回归分析。
线性关系初步判断
线性回归要求每个自变量和因变量之间存在线性关系,可以依靠相关分析和散点图来初步判断。
犯罪率与文盲率、霜冻天数、高中毕业率、人口存在较为明显的线性关系,面积和其他变量普遍无关,越冷的地方文盲率越低、高中毕业率越高。
有统计学意义的相关系数依次为:0.703(文盲率)、-0.539(霜冻天数)、-0.488(高中毕业率)、0.344(人口)。除因变量外其他因素两两间相关系数均在0.7以下,因素间没有强相关关系存在,初步提示共线性问题较弱。
以上分析表明,并不是所有因素都有犯罪率存在明显线性关系,如果我们构建多重线性回归,这可能涉及到自变量筛选的问题,可优先选择逐步回归的方法。
共线性问