R—基于diabetes数据的逐步回归、岭回归、lasso回归

最新推荐文章于 2023-05-13 18:05:34 发布

小卖部老板娘

最新推荐文章于 2023-05-13 18:05:34 发布

阅读量2.7k

点赞数 4

分类专栏：大数据挖掘与统计机器学习文章标签： r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mengyuqing12/article/details/115529094

版权

这篇博客通过R语言对diabetes数据进行了逐步回归、岭回归和lasso回归的分析。首先，使用描述统计分析数据，发现存在共线性问题。然后，通过最小二乘回归建立模型并进行模型检验，显示模型满足高斯马尔可夫假设。接着，利用岭回归缓解共线性问题，并通过岭迹图选择合适的参数。最后，运用lasso回归进行变量选择，通过十折交叉验证和Cp统计量确定最优模型，最终筛选出13个和15个变量的模型。

摘要由CSDN通过智能技术生成

#本次diabete数据来源于R中lars包
#语言为R

观察diabetes数据

序号	x.age	x.sex	…	x.glu	y	x2.age	x2.sex	…	x2.ltg:glu
1	0.03808	0.05068	…	-0.0176	151	0.03808	0.05068	…	-0.0278
…	…	…	…	…	…	…	…	…	…
442	-0.0455	-0.0446	…	0.00306	57	-0.0455	-0.0446	…	-0.0211

因变量y（糖尿病患者血液化验指标）
标准化的自变量矩阵x，大小为442*10矩阵，包含age、sex、bmi、map、tc、ldl、hdl、tch、ltg、glu这十个自变量
x2矩阵，包含x和一些交互作用，大小为442*64矩阵，交互项例如age^2

step-1.描述统计

library(lars)
data(diabetes)
attach(diabetes)
kappa(x2)
#kappa()函数查看条件数为11427.09，共线性严重

step-2.最小二乘回归

step-2.1最小二乘回归方程

#用step()函数建立逐步回归模型，剔除不重要的变量，该函数使用AIC准则选择变量

model.step=step(lm(y~x2)) #建立逐步回归模型
summary(model.step)#得到回归方程的系数和p值
#结果部分截图显示，调整后R方位0.5233，回归方程的F统计量显著，x2sex,x2bmi等变量的系数显著

step-2.2模型检验

#是否符合高斯马尔可夫假设，画出估计的y值与残差的散点图，以检验异方差性，并用夏皮洛-威尔克检验看看残差是不是正态分布

plot(model.step$fit,model.step$res) #画散点图
abline(h=0,lty=2)
shapiro.test(model.step$res)
# 夏皮洛-威尔克检验结果显示说明残差服从正态分布#残差图显示逐步回归没有明显的异方差性

step-3.岭回归

$\hat{β}_{ridge}=arg min(\sum_{i=1} ^ {n}(y_i-β_0-\sum_{j=1}^{p}x_{ij}β_j)^2+\alpha \sum_{j=1}^{p}{β_j}^2)$

最低0.47元/天解锁文章

小卖部老板娘

关注

4
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。