医学预测变量筛选的几种方法(R语言版)

本文详细介绍了在医学领域如何使用R语言进行预测变量筛选,涵盖了线性模型(如逐步法和Lasso回归)、树形模型(Boruta法和SHAP法)以及通用型的RFE方法。通过实例演示了这些方法在实际应用中的操作和优缺点。
摘要由CSDN通过智能技术生成

医学预测变量筛选的几种方法(R语言版)

预测变量筛选是机器学习中的一个重要环节,它可以帮助我们识别出与目标变量最相关的特征,从而提高模型的预测精度和解释性。在医学领域,预测变量筛选可以用于疾病诊断、预后评估、个性化治疗等方面。
目前, 多种预测变量筛选方法,每种方法都有其特点。本文将介绍几种常用的R语言方法,包括:

  • 线性模型相关的:
    • 逐步法
    • Lasso回归法
  • 树形模型相关的:
    • Boruta法
    • SHAP法
  • 通用型:
    • RFE

1. 线性模型相关方法

1.1 逻辑回归的逐步法

逐步法是一种经典的变量筛选方法,它通过不断迭代的方式,逐步加入或剔除变量,最终找到一个最优的变量子集。逐步法有两种常见的形式:

  • 前向逐步回归:从一个包含所有变量的模型开始,每次迭代加入一个与目标变量最相关的变量,直到达到停止条件。
  • 后向逐步回归:从一个包含所有变量的模型开始,每次迭代剔除一个与目标变量最不相关的变量,直到达到停止条件。

逐步法的优点是简单易懂,计算效率高。缺点是容易陷入局部最优,并且不能很好地处理多重共线性问题。这里是用的是R语言的klaR包,主要进行逻辑回归的逐步法,其中又包括两种算法,stepclass和greedy.wilks。

library(klaR)
library(MASS)
#criterion:A list with elements:CR:Correctness Rate;AC:Accuracy;AS:Ability to Seperate;CF:Confidence;CFvec:Confidence for each (true) class
sc_obj <- stepclass(class ~ ., data = data, method = "qda",criterion = "AS") 
sc_obj

1.2 Lasso回归法

Lasso回归法是一种基于L1正则化的回归方法,它可以同时进行变量筛选和系数估计。Lasso回归的惩罚项会使部分系数变为0,从而实现变量筛选。

Lasso回归的优点是能够有效地处理多重共线性问题,并且具有较好的泛化能力。缺点是可能无法选择出所有重要的变量。

这里主要用到的包是glmnet。

library(glmnet)
#glmnet要求的数据格式,释放出分类变量的各个类别
y=data_one_hot%>%dplyr::select(contains('class'))%>%as.matrix()
x=data_one_hot%>%dplyr::select(!contains('class'))%>%as.matrix()
#cv获取lambda的取值范围
lasso_cv=cv.glmnet(x,y,family='binomial',type.measure='deviance')
plot(lasso_cv)
# tidy(lasso_cv)
lasso=glmnet(x,y,family='binomial',lambda=c(lasso_cv$lambda.min,lasso_cv$lambda.1se))
plot(lasso,xvar='lambda',label=TRUE)
coef(lasso)

2. 树形模型相关方法

2.1 Boruta法

Boruta法是一种基于随机森林的变量筛选方法。它通过构建多个随机森林模型,并比较每个变量在不同模型中的重要性,来判断该变量是否重要。

Boruta法的优点是能够有效地处理非线性关系,并且可以用于处理高维数据。缺点是计算效率较低。

R语言中的Boruta包可以实现。

library(Boruta)
set.seed(1)
boruta_obj<-Boruta(class ~.,data=data,doTrace=0,ntree=500,pValue=0.001)
print(TentativeRoughFix(boruta_obj))#分两类
print(boruta_obj)#三类,包含怀疑的数据

2.2 SHAP法

SHAP法是一种基于SHAP值(SHapley Additive Explanations)的变量解释方法。SHAP值可以解释每个变量对模型预测结果的贡献。

SHAP法可以用于变量筛选,通过比较不同变量的SHAP值大小,来判断该变量的重要性。SHAP法的优点是能够解释模型的预测结果,并且具有较好的可解释性。缺点是计算效率较低。

R语言的shapviz包可以实现SHAP值的计算和可视化。

shp <- shapviz(extract_fit_engine(lightgbm_final_fit), X_pred = data.matrix(data[,-9]),X=data)  
# svg('shap_plot_N_M.svg')
sv_importance(shp,kind="both",show_numbers = TRUE,number_size = 5)+theme(axis.text=element_text(size=14),axis.title.x = element_text(size=14))
# dev.off()

3. RFE
通过改变rfeControl函数中的functions参数,可以选定各种模型

library(caret)
# 设置rfe的选项
set.seed(1)
rfeControl = rfeControl(functions = gamFuncs,
                        method = "cv", # 默认自助法重采样 boot
                        saveDetails = F, # 保存预测值和变量重要性
                        number = 5, # 重抽样次数
                        allowParallel = F # 允许多线程,用这个之前你要先准备好多线程!
                        )
set.seed(1)
gamProfile <- rfe(class~., data,
                 sizes = c(1:8),
                 rfeControl = rfeControl
                 )
gamProfile

以上介绍了五种常用的预测变量筛选方法,每种方法都有其优缺点。在实际应用中,可以根据具体情况选择合适的方法。文中代码为部分代码,完整的代码参见,可一键运行。和鲸社区代码示例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

预测模型的开发与应用研究

文中代码请大家随意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值