R语言:岭回归分析选择变量

本文介绍了R语言中如何处理多重共线性问题,通过岭回归和Lasso回归分析数据。在分析2003-2017年中国统计年鉴数据时,发现变量间存在高度相关性,导致多重共线性。文章详细展示了读入数据、建立岭回归模型、检查变量共线性、实施岭回归和Lasso回归的过程,并指出Lasso回归选择的最优变量为X1、X5、X3、X2。
摘要由CSDN通过智能技术生成

我们在回归分析的时候,古典模型中有一个基本的假定就是自变量之间是不相关的,但是如果我们在拟合出来的回归模型出现了自变量之间高度相关的话,可能对结果又产生影响,我们称这个问题为多重共线性,多重共线性又分为两种,一种是完全多重共线性,还有一种是不完全多重共线性,产生的原因有几个方面;
(1)变量之间存在内部的联系
(2)变量之间存在共同的趋势等
造成的后果分两部分:
(1)当自变量线性相关的时候,参数将无法唯一确定,参数的方差将趋近于无穷大,这时候无法使用最小二乘法
不完全多重共线性造成的后果
(1)参数估计量的方差随着多重共线性的严重程度的增加而增加,但是参数是可以估计的
(2)进行统计检验时容易删除掉重要解释变量
因为当多重共线性的时候容易造成自变量对因变量不显著,从模型中错误的剔除,这样容易删除重要解释变量的设定;因此我们选择岭回归来解决。

1.1、数据列表

在这里插入图片描述

数据来源:2003-2017 年中国统计年鉴

对于上面的数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mrrunsen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值