浅谈共线性的产生以及解决方法(下篇——来世)

本文探讨了共线性问题在实际数据分析中的影响,通过案例展示了民航客运量数据的多元线性模型,指出存在多重共线性。文章详细介绍了使用岭回归和LASSO回归进行特征选择的过程,解释了两者在处理共线性问题上的差异,强调LASSO回归在变量筛选上的优势,而岭回归则侧重压缩数据。最后,作者呼吁在建模时注意共线性问题,以提升模型预测能力。
摘要由CSDN通过智能技术生成

浅谈共线性的产生以及解决方法(下篇——来世)

上篇对共线性问题的诊断以及消除做了详尽的介绍,那么如何与实际场景结合呢?
(1)数据来源
该数据来源于《1994年统计摘要》1978-1993年的中国民航客运量统计数据。
(2)变量介绍
Y——民航客运量(万人)
X1——国民收入(亿元)
X2——消费额(亿元)
X3——铁路客运量(万人)
X4——民航线里程(万公里)
X5——来华旅游入境人数(万人)
对数据进行多元线性回归模型的拟合,看下效果
在这里插入图片描述
我们可以根据方差膨胀因子判别多元线性模型是否存在共线性问题,上述的系数表中,有四个VIF大于10,故我们认为该模型中存在多重共线性。
下面我们利用R对民航数据进行建模

###建立多重线性模型
minhang<-read.table("E:/mydata/shuju.txt",header=TRUE,sep="")
minhang
lm_minhang<-lm(y~.,data=minhang)
lm_minhang
summary(lm_minhang)

输出结果
在这里插入图片描述
在这里插入图片描述
从全模型上看,这个决定系数 R 2 R^{2} R2=0.9982,各个自变量均能通过显著性检验,这种情况可能会导致模型过拟合,需要进一步检验。

###计算方差膨胀因子,看一下自变量之间的共线性情况
install.packages("car")
library(car)
vif(lm_minhang)
plot(x1~x2,data = minhang,type="p",main="x1和x
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李未名001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值