浅谈共线性的产生以及解决方法(下篇——来世)
上篇对共线性问题的诊断以及消除做了详尽的介绍,那么如何与实际场景结合呢?
(1)数据来源
该数据来源于《1994年统计摘要》1978-1993年的中国民航客运量统计数据。
(2)变量介绍
Y——民航客运量(万人)
X1——国民收入(亿元)
X2——消费额(亿元)
X3——铁路客运量(万人)
X4——民航线里程(万公里)
X5——来华旅游入境人数(万人)
对数据进行多元线性回归模型的拟合,看下效果
我们可以根据方差膨胀因子判别多元线性模型是否存在共线性问题,上述的系数表中,有四个VIF大于10,故我们认为该模型中存在多重共线性。
下面我们利用R对民航数据进行建模
###建立多重线性模型
minhang<-read.table("E:/mydata/shuju.txt",header=TRUE,sep="")
minhang
lm_minhang<-lm(y~.,data=minhang)
lm_minhang
summary(lm_minhang)
输出结果
从全模型上看,这个决定系数 R 2 R^{2} R2=0.9982,各个自变量均能通过显著性检验,这种情况可能会导致模型过拟合,需要进一步检验。
###计算方差膨胀因子,看一下自变量之间的共线性情况
install.packages("car")
library(car)
vif(lm_minhang)
plot(x1~x2,data = minhang,type="p",main="x1和x