多元线性回归一般步骤与实例分析

一、多元线性回归一般步骤

实际科研分析时,线性回归分析的一般步骤如图 5-12所示。

(1) 准备数据

按普通数据格式录入数据,即每一行是一个个案,每一列是一个变量。线性回归的因变量须是定量数据资料,如果因变量为定类数据,则应该进行Logistic回归。线性回归的自变量允许是定量或定类数据,分类数据可利用【数据处理】→【生成变量】模块进行哑变量处理后参与回归。

(2) 线性条件判断

自变量与因变量间存在线性相关关系,这是基础条件。如果为非线性关系,则考虑先对数据进行转换或进行曲线回归。对于多重线性回归一般需要逐个观察各自变量与因变量的散点图是否有线性趋势,或进行线性相关分析,利用线性相关系数进行判断。

(3) 建立线性回归模型

如果只有一个自变量则进行一元线性回归,如果有多个自变量则进行多重线性回归。多重线性回归时,根据自变量个数以及自变量筛选方式,可选择逐步回归方式对自变量进行筛选。

(4) 模型检验与评价

构建模型后,需对模型整体进行显著性检验,判断模型是否有效,并进一步对各自变量回归系数进行显著性检验,并利用R方或调整后R方对模型拟合优度进行评价,R方的大小没有固定的标准,应结合行业经验或文献资料进行评判。

(5) 残差及共线性诊断

这一部分分析内容可以称为后验分析,利用回归残差进行残差正态性、残差等方差性、残差独立性诊断,判断残差是否满足相应的要求。同时对回归模型有无多重共线性问题、有无明显异常值影响进行判断和处理。

后验分析中如发现非正态、异方差、自相关、共线性、异常值等问题,考虑进行有针对性的处理措施,常见的比如对因变量做对数函数转换,剔除某些引发共线性问题的自变量,或剔除个别异常值数据后,返回第3步重新拟合线性回归。

(6) 结果报告

综合显著性检验、模型拟合优度、残差诊断、异常值判断等结果,对回归结果进行解读、分析和报告。侧重点主要在于回归模型有效性,回归系数的解释,确认影响因素,有时候也会写出线性回归方程予以报告。

二、多重线性回归实例分析

实际研究中,因变量的变化往往受多个因素的影响,因此多重线性回归更能反映变量间的客观关系。

1. 一元线性回归与多重线性回归的区别

根据自变量的个数,线性回归分为一元线性回归与多重线性回归。一元线性回归与多重线性回归对数据的要求、适用条件、模型检验、预测等基本是一致的,二者在应用时的主要区别见表 5-10。

(1) 一元线性回归:只包括一个自变量,不论其有无显著性意义都须纳入模型建立起回归方程,自变量的选择主要受专业知识和研究目的影响,不存在多重共线性、逐步回归筛选的问题。回归系数表示自变量每改变一个单位因变量随之发生的改变量,回归模型的评价指标可采用决定系数R方,通常作为多重线性回归或其他统计方法前的初步分析。

(2) 多重线性回归:可以分析多个自变量对因变量的影响关系,可以靠专业知识选择少数重要的自变量进行强迫法回归分析,也可以通过逐步回归法从众多自变量中筛选对因变量有显著影响的自变量进行分析,多个自变量间要求不能有多重共线性。回归系数表示控制其他自变量保持不变情况下,自变量每改变一个单位对因变量均值的影响程度。在采用R方对模型进行拟合评价时,应对R方进行校正,故一般采用调整后的R方。

因变量的变化是系统性的,与一元线性回归相比较,多重线性回归更符合实际研究情况,使用范围更为广泛,当因变量为定量数据时,常作为变量影响关系的依据。

2. 线性回归实例

【例5-5】接下来以实例分析的形式,结合图 5-12所示的步骤对线性回归分析进行进一步阐述。继续沿用“例5-1”的数据文档,拟建立以“年龄”、“教育年限”、“现雇佣年”、“工龄”为自变量,“工资”为因变量的多重线性回归模型。

一元线性回归的操作、步骤、结果分析和多重线性回归基本一致,此处不再单独进行实例介绍。

1) 准备数据

从研究目的上,分析“年龄”、“教育年限”、“现雇佣年”、“工龄”4个自变量对“工资”的相关性,或对“工资”的影响,由于“工资”变量为定量数据,因此采用线性回归。如果因变量为分类数据,则应该选用Logistic回归分析。

2) 线性条件判断

在前面5.1节中,已经介绍过用散点图和相关系数来判断两个变量间是否存在线性相关关系。通过【可视化】→【散点图】模块绘制散点图,因为4个自变量在量纲单位上比较接近,所以本例采用在一个直角坐标系绘制出4个散点图(量纲单位差距较大时可采用矩阵排列),如图 5-13所示。

通过【直方图】模块初步判断正态性后,通过【通用方法】→【相关】模块,以“工资”为因变量进行相关分析,结果发现“年龄”、“教育年限”、“现雇佣年”、“工龄”与因变量“工资”的Spearman相关系数依次为0.51、0.49、0.07、0.1,p值均小于0.05(至少标记一个*符号),均为正相关。综合散点图和Spearman相关系数,“工资”与“年龄”和“教育年限”的线性相关性较强,而与“工龄”和“现雇佣年”间存在弱线性相关。

3) 建立线性回归模型

本例考察的4个自变量均为定量数据,直接进行线性回归分析。仪表盘中依次选择【通用方法】→【线性回归】模块,将“工资”拖拽至【Y(定量)】,其他四个变量拖拽至【X(定量/定类)】。勾选【保存残差和预测值】,命令平台计算残差和预测值用于后验分析,操作界面设定如图 5-14所示,最后单击【开始分析】。

线性回归结果表格较多,包括线性回归分析结果、ANOVA表格、coefPlot图等,我们可以按步骤进行解读和分析。

4) 回归模型检验与评价

(1)回归方程总体显著性检验

回归模型是否有效采用方差分析F检验,该检验的概率p值小于0.05则说明模型显著,即当前回归模型至少有一个自变量的回归系数不为0,对因变量Y有显著影响,反之模型无统计学意义。

如上表511所示,F=111.78,p﹤0.05,表明该线性回归模型总体上有统计学意义。

(2) 偏回归系数显著性检验

某个自变量的t检验概率p值如果小于0.05则说明该变量会系数不为0,偏回归系数有统计学意义,其对因变量有显著影响,反之偏回归系数无统计学意义。

如表512所示,第2列、第4列分别给出了非标准化偏回归系数B与标准化偏回归系数β,第5~6为各自变量偏回归系数的t检验结果,第7列为偏回归系数的95% CI置信区间,第8列为共线性指标方差膨胀因子VIF。

t检验结果显示,“年龄”、“教育年限”的p值均小于0.01,“工龄”p值为0.99大于0.05,“现雇佣年”的p值等于0.05,均不显著,无统计学意义。常数项的显著性一般无实际意义,可以不做解读。本例所考察的4个自变量,“年龄”、“教育年限”对“工资”有显著影响,而另外两个变量对“工资”的无影响。

“年龄”变量的未标准化系数为17.59,说明年龄和工资间存在正相关关系,其他变量不变的情况下,年龄每增长1岁,工资水平相应提高17.59个单位。“教育年限”未标准化回归系数为22.37,表示其他变量不变的情况下,多接受一年教育,工资水平相应提高22.37个单位。

利用未标准化偏回归系数可写出回归方程表达式,本例即:

Y=-370.7+17.59×年龄+22.37×教育年限-0.03×工龄+5.35×现雇佣年

标准化偏回归系数,可用其绝对值对各自变量进行重要性排序。比如本例4个自变量重要性依次为:年龄﹥教育年限﹥现雇佣年﹥工龄。

(3) 回归方程拟合度评价

模型汇总表,列出诸多和模型拟合有关的指标,见表513。

R即复相关系数,也叫多元相关系数,反映的是所有自变量与因变量的总体相关关系。AIC为赤池信息准则,BIC为贝叶斯信息准则,这两个指标一般用于多个回归模型的优劣比较。RMSE为均方根误差,和原始数据的单位一致,解释结果时更容易理解,一般用于多个模型的比较。R、AIC、BIC、RMSE这4个指标不常用,本例不作解读。DW值用于残差独立性检验,稍后在第5步进行解读和分析。

一元线性回归时以R方作为拟合优度评价指标,多重线性回归时则采用调整后R方作为指标。本例调整后R方

为0.37,表示建立的回归模型可解释“工资”总变异信息的37%。R方越接近于1越能说明模型的解释能力,不同行业领域对R方的接受不尽相同,没有绝对的标准,可参考行业文献进行判断。

5) 残差及共线性诊断

在SPSSAU分析界面打开【我的数据】,在当前数据集名称右侧,单击【查看】数据,即可观察到平台计算并另存为新变量的残差值和预测值数据。如图 515所示,左侧第1列“Regression_Prediction_XXXX”即回归方程对现有数据作的预测值(以下简称Prediction),第2列“Regression_Residual_XXXX”即本次回归的未标准化残差值(以下简称Residual)。后验分析中对残差的分析需要使用这两列新生成的变量,它也会自动出现在待分析模块的变量列表中。

(1) 残差正态性

本例采用操作简易的直方图,依次选择【可视化】→【直方图】模块,将“Residual”拖拽至【分析项(定量)】,单击【开始分析】。

由图 516所示,直方图呈现出左右对称的形态,比较接近正态分布,认为近似正态分布,残差满足正态性要求。

(2) 残差等方差性

一般利用残差数据绘制残差散点图,观察样本点是否随机分布。依次选择【可视化】→【散点图】模块,将“Residual”拖拽至【Y(定量)】,“Prediction”拖拽至【X(定量)】,此处注意散点图X轴及Y轴上分配的变量,一般上残差诊断的散点图,其预测值作为X轴,残差值作为Y轴,最后单击【开始分析】。

如图 517所示,点的分布并不是随机的,随着预测值的增大,残差有“逐渐放大”的趋势,呈现出开口向右的“喇叭状”形态,提示本次建立的线性回归模型残差不满足等方差性,存在残差异方差问题,这对线性回归过程是不利的,影响结果的准确性,应当重视并想办法予以处理。常见的处理方式可考虑对回归分析的因变量进行对数函数的变换,然后重新建立线性回归模型,此分析过程稍后进行。

(3) 残差独立性

通常用到D-W检验方法,如果D-W值在2附近(1.7~2.3之间),则可说明残差独立。D-W检验的结果在线性回归中自动计算并输出。

如前面表513所示,本例的DW统计量值为1.85,在1.7~2.3范围内,认为残差独立。

(4) 无多重共线性

通过VIF指标来快速判断有无共线性问题,一般认为VIF大于10(较为严格的标准是大于5)说明线性回归模型有较为严重的共线性问题。

在前面表513中最后一列即VIF指标,本次分析四个自变量的VIF介于(1.2~2.1)之间,均小于10,因此本例不考虑共线性问题。

(5) 无明显异常值

回归分析的异常值,可通过残差散点图进行直观观察判断。如图 517所示,散点图顶部和底部有极少数点距离偏远,值得关注。一般来说对异常值的判断应谨慎,还需结合专业认知对这些点进行判断,本例暂不处理。

6) 回归结果分析

以上步骤中,对以“年龄”、“教育年限”、“现雇佣年”、“工龄”为自变量,“工资”为因变量的多重线性回归模型进行显著性检验、后验分析、共线性检验、异常值等初步分析,目前主要结论是模型总体上有统计学意义,其中“年龄”、“教育年限”对“工资”有显著影响。但是残差存在异方差性,结合因变量“工资”自身不服从正态分布的特征,本例考虑对因变量进行对数函数转换,然后重新构建多重线性回归模型。

7) 重新建立新回归模型

首先通过【数据处理】→【生成变量】模块,选中“工资”变量,然后在【生成变量】下方下拉框内选择【自然对数(Ln)】,单击底部的【确认处理】,平台会自动计算并将新的对数数据保存到数据文件中,如图 518所示。

新变量“Ln_工资”即工资数据的自然对数函数转换值。接下来以“年龄”、“教育年限”、“现雇佣年”、“工龄”为自变量,“Ln_工资”为因变量,重新拟合多重线性回归,并要求计算新模型的残差值和预测值。基于残差和与预测数据,重新绘制参数散点图进行诊断。相关操作和前面第一次线性回归一致,此处不再赘述,直接进行主要结果的解读和报告。为和上一次回归结果进行比较,两次模型分别简称模型1和模型2。

模型2残差散点图,见图 519。显然因变量对数转换后,模型2的残差分布得到明显改善。点的分布随机化、均匀化,无明显趋势规律,可认为回归残差等方差。其他关于残差正态性、独立性的条件同样是满足的。

模型2线性回归分析汇总结果见表5-14,F(4,752)=111.46,p﹤0.05,回归模型2有统计学意义。其中“年龄”和“教育年限”对“Ln_工资”有显著影响(均p﹤0.05),“工龄”和“现雇佣年”无影响 (均p﹥0.05)。

调整后R方=0.37,模型2可解释“Ln_工资”的37%变异来源,模型表达式为:

Ln_工资=3.661+0.050×年龄+0.067×教育年限+0.004×工龄+0.015×现雇佣年,

因变量对数变换后,关于自变量回归系数的解读和模型1不同。比如本例的教育年限偏回归系数0.07,每增加一年教育,将使得工资增加7%。同理,年龄每增加一年,工资增加5%。


以上内容摘自《SPSSAU科研数据分析方法与应用》第5章——相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值