R语言群组变量选择、组惩罚group lasso套索模型预测分析新生儿出生体重风险因素数据和交叉验证、可视化

拓端研究室

已于 2023-02-07 20:56:10 修改

阅读量2.1k

点赞数

分类专栏： R语言机器学习文章标签： r语言开发语言

于 2022-01-25 17:46:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19600291/article/details/122689674

版权

R语言同时被 2 个专栏收录

466 篇文章 81 订阅

订阅专栏

231 篇文章 7 订阅

订阅专栏

最近我们被客户要求撰写关于lasso的研究报告，包括一些图形和统计输出。

本文拟合具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。这包括组选择方法，如组lasso套索、组MCP和组SCAD，以及双级选择方法，如组指数lasso、组MCP。还提供了进行交叉验证以及拟合后可视化、总结和预测的实用程序。

相关视频：Lasso回归、岭回归等正则化回归数学原理及R语言实例

Lasso回归、岭回归等正则化回归数学原理及R语言实例

本文提供了一些数据集的例子；涉及识别与低出生体重有关的风险因素。结果是连续测量（bwt，以公斤为单位的出生体重），也可以是二分法（低），即新生儿出生体重低（低于2.5公斤）。


head(X)

原始设计矩阵由 8 个变量组成，此处已将其扩展为 16 个特征。例如，有多个种族指标函数（“其他”是参考组），并且已经使用多项式对比扩展了几个连续因素（例如年龄）（样条曲线会给出类似的结构）。因此，设计矩阵的列被分组；这就是组的设计目的。分组信息编码如下：

group

在这里，组是作为一个因子给出的；唯一的整数代码（本质上是无标签的因子）和字符向量也是允许的（然而，字符向量确实有一些限制，因为组的顺序没有被指定）。要对这个数据拟合一个组套索lasso模型。

gLas(X, y，grup）

然后我们可以用以下方法绘制系数路径



plot

请注意，当一个组进入模型时（例如，绿色组），它的所有系数都变成非零；这就是组套索模型的情况。要想知道这些系数是什么，我们可以使用coef。

请注意，在λ=0.05时，医生的就诊次数不包括在模型中。

为了推断模型在各种 λ值下的预测准确性，进行交叉验证。



cv(X, y, grp)

可以通过coef以下方式获得与最小化交叉验证误差的 λ 值对应的系数：



coef(cvfit)

预测值可以通过获得 predict，它有许多选项：

predict # 对新观察结果的预测

predicttype="ngroups" # 非零组的数量

 # 非零组的身份

nvars # 非零系数的数量

predict(fit # 非零系数的身份

原始拟合（对完整数据集）返回为fit; 其他几种惩罚是可用的，逻辑回归和 Cox 比例风险回归的方法也是如此。

拓端研究室

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
R语言群组变量选择、组惩罚group lasso套索模型预测分析新生儿出生体重风险因素数据和交叉验证、可视化

原文链接：http://tecdat.cn/?p=25158原文出处：拓端数据部落公众号本文拟合具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。这包括组选择方法，如组lasso套索、组MCP和组SCAD，以及双级选择方法，如组指数lasso、组MCP。还提供了进行交叉验证以及拟合后可视化、总结和预测的实用程序。本文提供了一些数据集的例子；涉及识别与低出生体重有关的风险因素。结果是连续测量（bwt，以公斤为单位的出生体重），也可以是二分法（低），即新生儿出生体重低（低于2.5公..
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。