R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算

全文链接:http://tecdat.cn/?p=30726

在存在缺失数据的情况下,需要根据缺失数据的机制和用于处理缺失数据的统计方法定制变量选择方法。我们专注于可以与插补相结合的随机和变量选择方法的缺失方法点击文末“阅读原文”获取完整代码数据)。

我们围绕自举Bootstrap插补和稳定性选择技术进行一些咨询,帮助客户解决独特的业务问题,后者是为完全观察的数据而开发的。所提出的方法是通用的,可以应用于广泛的设置。仿真研究表明,与几种针对低维和高维问题的现有方法相比,BI-SS的性能是最好的或接近最好的,并且对变量选择方面的参数值调整相对不敏感。

引言

变量选择已经广泛研究了完全观察到的数据,现有方法包括基于AIC的经典方法(Akaike,1974)和现代正则化方法,如套索(Tibshirani,1996)。与完全观测的数据相比,在存在缺失数据的情况下,变量选择出现了新的挑战。特别是,存在不同的缺失数据机制,对于每种机制,都有不同的统计方法来处理缺失数据。因此,变量选择方法需要根据缺失的数据机制和所使用的统计方法进行调整。Little和Rubin(2002)和Tsiatis(2006)一起对处理缺失数据的现有统计方法进行了全面回顾。

相关视频

本文重点研究了随机缺失(MAR)。根据MAR研究了变量选择,并对用于处理缺失数据的统计方法进行了研究。

### 具有非正态变量的示例数据集
set.seed(1000)
n <- 50
x1 <- round(runif(n,0.5,3.5))
x2 <- as.factor(c(rep(1,10),rep(2,25),rep(3,15)))

Bootstrap插补

随机创建缺失值

dat <- mice(data1)
complete(dat)

稳定性选择与自举插补相结合

train <- data[trainindex,1:6]
calibrate <- data[-trainindex,1:6]
plot(train)

Bootstrap插补

套索LASSO回归

lambda的最优值是通过交叉验证选择的。

8124e49c254d2f818b293107f7ac354a.png


点击标题查阅往期内容

e732bffffe9ae4cddb3f95ef8ca1837a.png

PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化

outside_default.png

左右滑动查看更多

outside_default.png

01

66c1cf3e434d8ad7818f8056891f20f1.png

02

b32001400814dbac41c41b16509cc8f9.png

03

7992a0cc83ee044dbe4e60966aa451ed.png

04

8cc81edc84c2b8862f5b81def141cb0f.png

Bolasso与自举插补相结合

4d03dee734a4d7905dfaa3518d946b0d.png

beta.rescaled <- beta
for(j in 1:nrow(beta.rescaled)){
  beta.rescaled[j,] <- beta.rescaled[j,]*beta.scale

a8acf9a78de376762ea96a3a45359db8.png

计算RSS

d989f0533edf4e5edb0ba882200bdb6b.png

讨论

本文研究了一种在缺少数据的情况下进行变量选择的通用重采样方法,数值结果表明,对低维和高维问题都具有较好的性能。当专注于回归分析时,所提出的方法可以解读为适用于其他类型的分析。在我们感兴趣的背景下,将标准误差处理为参数估计是一项具有挑战性的任务。一种方法是将现有的获取标准误差的方法应用于仅限于变量选择过程选择的预测器的原始数据。

6873c7b81667d2972657551063b673b6.png

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言缺失数据变量选择LASSO回归:Bootstrap重(再)抽样插补和推算》。

点击标题查阅往期内容

R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据

Python中的Lasso回归之最小角算法LARS

高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据

Python高维变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例

R使用LASSO回归预测股票收益

广义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和交叉验证

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

R语言RSTAN MCMC:NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

R语言高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据(含练习题)

Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例

R语言Bootstrap的岭回归和自适应LASSO回归可视化

R语言Lasso回归模型变量选择和糖尿病发展预测模型

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

基于R语言实现LASSO回归分析

R语言用LASSO,adaptive LASSO预测通货膨胀时间序列

R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例

Python中的Lasso回归之最小角算法LARS

r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

R语言实现LASSO回归——自己编写LASSO回归算法

R使用LASSO回归预测股票收益

python使用LASSO回归预测股票收益

Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例

R语言Bootstrap的岭回归和自适应LASSO回归可视化

R语言Lasso回归模型变量选择和糖尿病发展预测模型

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

基于R语言实现LASSO回归分析

R语言用LASSO,adaptive LASSO预测通货膨胀时间序列

R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例

Python中的Lasso回归之最小角算法LARS

r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

R语言实现LASSO回归——自己编写LASSO回归算法

R使用LASSO回归预测股票收益

python使用LASSO回归预测股票收益

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC

MATLAB随机森林优化贝叶斯预测分析汽车燃油经济性

R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据

R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

Python贝叶斯回归分析住房负担能力数据集

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

Python用PyMC3实现贝叶斯线性回归模型

R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型

R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

R语言和STAN,JAGS:用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言贝叶斯线性回归和多元线性回归构建工资预测模型

R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例

R语言stan进行基于贝叶斯推断的回归模型

R语言中RStan贝叶斯层次模型分析示例

R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型

WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较

R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样

R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例

R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

视频:R语言中的Stan概率编程MCMC采样的贝叶斯模型

R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计

R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

9100c7b5eba2845bc18775b188819121.png

ef06e1ea54a277266773adf5611b0b92.jpeg

9eee30ec5059410cc87e3bce5300ccf6.png

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值