逐步线性回归分析实例研究,三种逐步回归法

当要研究分析的自变量个数较少,且这些自变量得到专业及文献资料的支持,此时自变量一般上是未提前筛选,采用全部纳入模型的方式,即专业上欲考察的自变量全部纳入线性回归模型中。

实际分析过程中,以探索为目的的相关影响关系研究,往往是从众多的自变量中搜寻对因变量有影响的因素,研究者并不清楚哪些自变量的与因变量是相关的,此时为提高分析效率,回归过程只引入作用显著的自变量而剔除无意义的自变量,可采用逐步回归的形式进行多重线性回归分析

1. 逐步回归法

如所示表5-15,逐步回归包括三种自变量筛选的方式。

(1) 向前法:先对每个自变量做线性回归,然后按重要性依次逐个引入有显著性的自变量建立多重线性回归方程,不对已引入的自变量做显著性检验,只进不出,直到没有自变量被引入为止。

(2) 向后法:先将所有自变量引入建立多重线性回归方程,然后按重要性逐个剔除无显著性意义的自变量,每剔除一次再针对剩余的自变量重新建立回归方程,直到回归方程中的自变量不能被剔除为止。

(3) 逐步法:先按向前法引入自变量,每引入一个自变量当前模型所有自变量都做一次显著性检验,已进入模型的自变量如果变得无显著性则剔除,能确保每次引入新的自变量前回归方程中都是有显著意义的自变量,属于双向筛选过程,直到没有自变量可以被引入,也没有自变量可以被剔除为止。

逐步法可克服向前法与向后法的一些缺陷,得到普遍使用。三种逐步回归方法的选择,并无严格的规定或标准,实践当中须同时重视专业上对自变量的是筛选和评价,不能完全依赖统计方法进行自变量的筛选。

2. 逐步回归实例分析

【例5-6】 在“例5-5”的基础上,考虑加入更多的自变量以研究它们对工资的影响。拟建立以“年龄”、“教育年限”、“现雇佣年”、“工龄”、“智商”、“世界观”、“母亲受教育年限”、“婚否”、“是否住美国南方”以及“是否住大城市”为自变量,“Ln_工资”为因变量,采用逐步回归方式构建多重线性回归模型。

1) 准备数据

因变量“Ln_工资”为定量数据,自变量“年龄”、“教育年限”、“现雇佣年”、“工龄”、“智商”、“世界观”、“母亲受教育年限”为定量数据,“婚否”、“是否住美国南方”以及“是否住大城市”二水平分类变量,如果进行哑变量处理仍为自身,因此二水平分类变量也可以直接进行线性回归,数据类型符合线性回归的基本要求。

2) 线性相关条件判断

针对待分析的10个自变量,分别绘制与因变量的散点图或矩阵式散点图。经观察发现,与因变量之间基本均呈现出线性相关关系,没有发现明显的非线性关系,可以进行下一步的多重线性回归。具体操作及散点图解读与上一节内容类似,此处略。

3) 建立线性回归模型

当研究者对自变量的筛选无明确专业或理论依据,在自变量较多时可考虑采用逐步回归的方式进行筛选。依次选择【进阶方法】→【逐步回归】功能模块,如图 520所示,将量“Ln_工资”作为【Y(定量)】,其他变量作为【X(定量/定类)】,在下拉框内向前法、向后法、逐步法选项中,选择【逐步法】,勾选【保存残差和预测值】,最后单击【开始分析】。

4) 模型检验与评价

逐步回归分析结果见表5-16

(1) 回归方程总体显著性检验F(6,750)=93.43,p﹤0.01,按α=0.01水平,认为本次拟合所得的回归方程具有统计学意义。

(2) 偏回归系数检验,待分析的10个自变量,最终保留在模型的包括“年龄”、“教育年限”、“智商”、“婚否”、“是否住美国南方”以及“是否住大城市”6个自变量,t检验p值全部小于0.05,说明这6个自变量对“Ln_工资”的影响有统计学意义。由标准化系数看出,“年龄”、“教育年限”、“大城市否”对“Ln_工资”的影响依次位列前三位。

(3) 经过逐步回归的筛选,最终回归方程为:

Ln_工资=3.446-0.091×南方否 + 0.097×婚否 + 0.133×大城市否 + 0.004×智商 + 0.049×年龄 + 0.047×教育年限。

(4) 模型拟合评价,回归方程调整后R方=0.42,表示“Ln_工资”变异的42%能被上述多重线性回归方程所解释。

5) 模型残差及共线性诊断

(1) 残差诊断,【保存残差和预测值】命令将计算出本次回归方程的残差与预测值,两个新变量名称跟前缀字符简称为“Residual”和“Prediction”,然后通过【可视化】→【散点图】、【直方图】或【P-P图/Q-Q图】绘制残差散点图、残差直方图、残差正态PP图进行残差的各条件诊断。经诊断,残差符合正态性、等方差性。具体操作个解释分析同上一节相同,此处略。残差独立性,由表516中D-W统计量可知,本例回归方程D-W=1.81,接近2,可粗略认为本例残差独立。

(2) 共线性诊断,由表516中VIF指标可知,纳入回归方程的6个自变量,其各自的VIF指标均小于5,认为不存在多重共线性问题。

7) 结果分析报告

综述所述,本次逐步回归发现,“年龄”、“教育年限”、“智商”、“婚否”、“是否住美国南方”以及“是否住大城市”这6个自变量对工资有显著影响,可解释工资变异的42%,整个回归方程有统计学意义。


以上内容摘自《SPSSAU科研数据分析方法与应用》第5章——相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值