逐步回归法的基本步骤_逐步回归法介绍及应用

一、逐步回归法介绍

逐步回归的基本思想是通过剔除变量中不太重要又和其他变量高度相关的变量,降低多重共线性程度。将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除,以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,以保证最后所得到的解释变量集是最优的。

逐步回归法的好处是将统计上不显著的解释变量剔除,最后保留在模型中的解释变量之间多重共线性不明显,而且对被解释变量有较好的解释贡献。但是应特别注意,逐步回归法可能因为删除了重要的相关变量而导致设定偏误。

二、逐步型选元法

逐步回归法选择变量的过程包含两个基本步骤:一是从回归模型中剔出经检验不显著的变量,二是引入新变量到回归模型中,常用的逐步型选元法有向前法和向后法。

向前法:向前法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。具体步骤如下。

b376322fce4e3c97c0074e80f883898f.png

依此方法重复进行,每次从未引入回归模型的自变量中选取一个,直到经检验没有变量引入为止。

向后法与向前法正好相反,它事先将全部自变量选入回归模型,再逐个剔除对残差平方和贡献较小的自变量。

三、实证分析

本文选择了5个可能影响粮食产量的因素,变量分别为:粮食产量(万吨)y,粮食播种面积(千公顷)x1,灌溉面积(千公顷)x2,化肥施用量(万吨)x3,大型拖拉机数量(万台)x4,小型拖拉机数量(万台)x5。本文选择了31个省2018年的数据,数据来源于《中国统计年鉴》。

首先对数据进行相关性检验,输出结果如图1。

e82380b3c2e3c40bd1cf23fbab003e60.png

图1 相关性检验

通过R软件输出自变量与因变量之间的相关系数图和相关系数矩阵,由输出结果可以看出,除各个自变量与粮食产量之间存在较高的相关关系外,自变量之间同样存在较高的相关关系,如粮食播种面积与灌溉面积之间的相关系数为0.88。若直接构建多元线性回归模型,会出现严重的多重共线性。

e72fc2d0008b9640c31e7346e849ee57.png

图2 引入所有变量进行回归

让所有变量进入方程,构建粮食产量关于所有解释变量的多元线性回归模型,在不考虑多重共线性的问题下输出回归结果,可以得到:

4334658ff2ac8d6f9b709b2234dcc0f5.png

在图2输出结果的显著性分析中,尽管该模型调整后的R2很高,但除x1和x4在p<0.05的水平下显著不为0外,其余三个指标均无法通过显著性检验,即认为当控制其他变量不变时,这些指标与粮食产量没有显著的线性相关关系。因此,我们采取逐步回归的方法对控制变量进行筛选,逐步选取对粮食产量拟合最好的解释变量,输出结果如图3。

fb563ff773e78a0535c3dc8d22572512.png

图3 逐步回归

根据逐步回归结果,当线性回归模型在删除x2和x5两个变量后,再去掉其他任意变量AIC的值都增加,逐步回归分析终止得到当前最优的回归方程。

剔除多余变量后,选取x1、x3和x4三个变量重新对粮食产量进行回归,输出结果如图4。

662c8be12f0efeb37c3aae1bc950cf0c.png

图4 逐步回归模型

在图4输出结果的显著性分析中,x1、x3和x4在p<0.05的水平下显著不为0,同时该模型调整后的R2也有所增加。模型整体拟合程度较好,得到当前最优的回归模型。根据图4输出结果,得到如下回归方程:

23be8c70b24a1495e9370e36081e42d8.png

对回归方程进行多重共线性检验,输出结果如图5。

96fc23f3fbd4855afaabae5590a785dc.png

图5 多重共线性检验

经检验,x1、x3和x4三个变量的VIF值均小于10。因此,由x1、x3和x4三个变量对粮食产量进行回归得到的回归方程不存在多重共线性。

四、特别说明

本文仅介绍了用逐步回归法剔除变量中不太重要又和其他变量高度相关的变量,降低多重共线性程度,得到不存在多重共线性的多元线性回归方程。在实际应用对数据建立多元线性回归方程时,解决多重共线性问题后仍需要对回归方程进行自相关检验和同方差检验。

c=read.csv("E://3.csv",sep=",",header=T)##导入数据fix(c)attach(c)cor(c)##相关系数install.packages("psych")library(psych)corr.test(c,use = "complete",method = "pearson",adjust = "none")##相关性检验t=lm(y~.,data=c)##所有变量进入方程summary(t)install.packages("MASS")library(MASS)stepAIC(t,direction="both")##逐步回归分析t1=lm(y~x1+x3+x4,data=c)#选取x1,x3,x4进入方程,在显著性0.05的情况下各自变量通过检验summary(t1)install.packages("car")library(car)vif(t1)#检验多重共线性
  • 33
    点赞
  • 217
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
逐步回归是一种逐步选择变量的回归方,通过逐步添加或删除变量来找到最佳的回归模型。其基本思想是根据统计指标(如回归系数的显著性、模型的拟合优度等)来选择最优的变量组合。 逐步回归一般包括逐步前向选择和逐步后向删除两个步骤。在逐步前向选择过程中,从空模型开始,将单个变量逐个加入模型,每次加入一个变量,统计模型的拟合优度并进行假设检验,判断该变量是否显著,若显著则保留该变量,继续加入下一个变量,直到满足某个指定的停止规则。在逐步后向删除过程中,从包含所有变量的模型开始,逐个删除变量,每次删除一个变量,统计模型的拟合优度并进行假设检验,判断该变量是否可以删除,若可以删除则删除该变量,继续删除下一个变量,直到满足停止规则。 逐步回归通过逐个变量的加入或删除,只保留对因变量有显著影响的变量,提高了回归模型的拟合效果和解释能力。同时,逐步回归还可以应用于变量筛选和特征选择的问题中,根据模型的拟合结果可以判断哪些变量对因变量的影响较大,从而简化模型和提高预测准确性。 然而,逐步回归也存在一些问题。首先,由于逐步选择变量是基于某个停止规则进行的,不同的停止规则可能导致选择的最优模型有差异。其次,逐步回归容易陷入过拟合问题,当变量较多时,可能出现选择出的变量数量较多,而且无解释的情况。因此,在应用逐步回归时需要注意合理选择停止规则,以及对结果进行解释和验证。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值