lasso回归_LASSO回归模型

Lasso回归通过L1正则化实现系数压缩和选择,适用于高维和复共线性数据。文章介绍了Lasso的起源、正则化参数设置、交叉验证方法以及LassoLarsCV和LassoCV的比较,强调了在特征多于样本时Lars算法的优势。同时,探讨了Lasso回归的优缺点,包括参数缩减、非连续可导性及其解决方法——坐标轴下降法和最小角回归法。
摘要由CSDN通过智能技术生成

LASSO是由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator。

该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值;同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。

352e301f6db73090f8cf03aa619cdd60.png

设置正则化参数

alpha 参数控制着估计出的模型的系数的稀疏度

使用交叉验证

scikit-learn 通过交叉验证来公开设置 Lasso alpha 参数的对象:LassoCV 和 LassoLarsCV。LassoLarsCV是基于最小角回归的算法。

对于带有很多共线回归器(collinearity)的高维数据集,LassoCV 是经常被选择的模型。然而,LassoLarsCV在寻找更有相关性的 alpha 参数值上更有优势,而且如果样本数量与特征数量相比非常小时,通常LassoLarsCV比LassoCV要快。

基于信息标准的模型选择

作为替代方案,估计器 LassoLarsIC 建议使用Akaike信息准则(AIC)和Bayes信息准则(BIC)。使用基于信息准则的方法寻找alpha的最优值是一种计算成本较低的方法,因为这种方法中正则化路径只计算一次而不是使用k-fold交叉验证时的k+1次。然而,这类准则需要对解的自由度进行适当的估计,是为大样本(渐近结果)导出的,并假定模型是正确的(即数据实际上是由该模型生成的)。当问题条件数不好(特征数大于样本数),模型可能会崩溃。

对于交叉验证,使用两种算法在20-fold上计算Lasso路径(path):坐标下降(由LassoCV类实现)和Lars(最小角回归)(由LassoLarsCV类实现)。这两种算法给出的结果大致相同。它们在执行速度和数值误差来源方面存在差异。

加载表达矩阵和生存数据

rm(list=ls())
options(stringsAsFactors = F)

Rdata_dir='Rdata/'
Figure_dir='figures/'
# 加载上一步从RTCGA.miRNASeq包里面提取miRNA表达矩阵和对应的样本临床信息。
load( file = 
        file.path(Rdata_dir,'TCGA-KIRC-miRNA-example.Rdata&#
  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值