一、逐步回归法介绍
逐步回归的基本思想是通过剔除变量中不太重要又和其他变量高度相关的变量,降低多重共线性程度。将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除,以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,以保证最后所得到的解释变量集是最优的。
逐步回归法的好处是将统计上不显著的解释变量剔除,最后保留在模型中的解释变量之间多重共线性不明显,而且对被解释变量有较好的解释贡献。但是应特别注意,逐步回归法可能因为删除了重要的相关变量而导致设定偏误。
二、逐步型选元法
逐步回归法选择变量的过程包含两个基本步骤:一是从回归模型中剔出经检验不显著的变量,二是引入新变量到回归模型中,常用的逐步型选元法有向前法和向后法。
向前法:向前法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。具体步骤如下。
依此方法重复进行,每次从未引入回归模型的自变量中选取一个,直到经检验没有变量引入为止。
向后法与向前法正好相反,它事先将全部自变量选入回归模型,再逐个剔除对残差平方和贡献较小的自变量。
三、实证分析
本文选择了5个可能影响粮食产量的因素,变量分别为:粮食产量(万吨)y,粮食播种面积(千公顷)x1,灌溉面积(千公顷)x2,化肥施用量(万吨)x3,大型拖拉机数量(万台)x4,小型拖拉机数量(万台)x5。本文选择了31个省2018年的数据,数据来源于《中国统计年鉴》。
首先对数据进行相关性检验,输出结果如图1。
图1 相关性检验
通过R软件输出自变量与因变量之间的相关系数图和相关系数矩阵,由输出结果可以看出,除各个自变量与粮食产量之间存在较高的相关关系外,自变量之间同样存在较高的相关关系,如粮食播种面积与灌溉面积之间的相关系数为0.88。若直接构建多元线性回归模型,会出现严重的多重共线性。
让所有变量进入方程,构建粮食产量关于所有解释变量的多元线性回归模型,在不考虑多重共线性的问题下输出回归结果,可以得到:
在图2输出结果的显著性分析中,尽管该模型调整后的R2很高,但除x1和x4在p<0.05的水平下显著不为0外,其余三个指标均无法通过显著性检验,即认为当控制其他变量不变时,这些指标与粮食产量没有显著的线性相关关系。因此,我们采取逐步回归的方法对控制变量进行筛选,逐步选取对粮食产量拟合最好的解释变量,输出结果如图3。
图3 逐步回归
根据逐步回归结果,当线性回归模型在删除x2和x5两个变量后,再去掉其他任意变量AIC的值都增加,逐步回归分析终止得到当前最优的回归方程。
剔除多余变量后,选取x1、x3和x4三个变量重新对粮食产量进行回归,输出结果如图4。
图4 逐步回归模型
在图4输出结果的显著性分析中,x1、x3和x4在p<0.05的水平下显著不为0,同时该模型调整后的R2也有所增加。模型整体拟合程度较好,得到当前最优的回归模型。根据图4输出结果,得到如下回归方程:
对回归方程进行多重共线性检验,输出结果如图5。
图5 多重共线性检验
经检验,x1、x3和x4三个变量的VIF值均小于10。因此,由x1、x3和x4三个变量对粮食产量进行回归得到的回归方程不存在多重共线性。四、特别说明
本文仅介绍了用逐步回归法剔除变量中不太重要又和其他变量高度相关的变量,降低多重共线性程度,得到不存在多重共线性的多元线性回归方程。在实际应用对数据建立多元线性回归方程时,解决多重共线性问题后仍需要对回归方程进行自相关检验和同方差检验。
c=read.csv("E://3.csv",sep=",",header=T)##导入数据fix(c)attach(c)cor(c)##相关系数install.packages("psych")library(psych)corr.test(c,use = "complete",method = "pearson",adjust = "none")##相关性检验t=lm(y~.,data=c)##所有变量进入方程summary(t)install.packages("MASS")library(MASS)stepAIC(t,direction="both")##逐步回归分析t1=lm(y~x1+x3+x4,data=c)#选取x1,x3,x4进入方程,在显著性0.05的情况下各自变量通过检验summary(t1)install.packages("car")library(car)vif(t1)#检验多重共线性