手把手教你使用stata进行lasso回归

Stata版本目前已经更新到17了,外观也精美了许多,很增加了许多新的功能,如制作表格导出,双重差分法。自从更新到了16版本后自带了lasso回归功能,到了17以后功能更加强大了,多了可使用 “贝叶斯信息准则”(Bayesian Information Criterion,简记BIC)选择惩罚参数,新增选择项 “cluster(clustvar)” 来处理聚类数据。
在这里插入图片描述
在这里插入图片描述
LASSO 回归也叫套索回归,是通过生成一个惩罚函数是回归模型中的变量系数进行压缩,达到防止过度拟合,解决严重共线性的问题,LASSO 回归最先由英国人Robert Tibshirani提出,目前在预测模型中应用非常广泛。在新格兰文献中,有大牛提出,对于变量过多而且变量数较少的模型拟合,首先要考虑使用LASSO 惩罚函数。
我们继续使用我们的早产数据(公众号回复:早产数据,可以获得数据),做一个LASSO的逻辑回归,我们先导入数据,我是直接黏贴
在这里插入图片描述
数据有8个指标,最后两个是PSM匹配结果,我们不用理他,其余六个为:
Education:教育程度,age:年龄,parity产次,induced:人流次数,case:是否不孕,这是结局指标,spontaneous:自然流产次数。
在这里插入图片描述
先把Education这个指标转成数字

g edu=2
replace edu=0 if education=="0-5yrs"
replace edu=1 if education=="6-11yrs"

下图展示了stata做各个模型的格式,我们对着做就行了
在这里插入图片描述
lasso logit回归,selection选择cv, alllambd就是交叉验证模式,这里默认的是10折,如果选择selection(bic)则是贝叶斯信息准则验证。交叉验证在我既往的文章《基于R语言进行K折交叉验证》中有介绍,感兴趣的可以取看一看,rseed(1234)等于是设置一个种子,有可重复性。

lasso logit case age i.edu parity i.induced i.spontaneous , selection(cv, alllambdas) stop(0) rseed(1234)

在这里插入图片描述
从上图可以看出软件选择了星号ID为30,lambda= .0105207 共有8个coef,(这里注意一下,像edu这个分类变量是等于2个coef的)
查看选值过程

Lassoknots

在这里插入图片描述
打出交叉验证图

cvplot

在这里插入图片描述
上图给出了调节参数的最优值 ,即得函数最小的值。从上图可知,在最优值附近,函数 非常平坦,这意味着在最优值附近变化,对于模型的预测能力很稳定。
使用coefpath函数来绘制lasso的系数路径(coefficient paths),

coefpath,legend(on position(12) cols(4))

在这里插入图片描述
以对数尺度来做图,xline(0105207)可以设置一条参考线

coefpath, legend(on position(12) cols(4)) xunits(lnlambda) xline(.0034851)

在这里插入图片描述
还可以使用lassocoef函数提取系数值,其实这步意义不大,我们主要是想筛选变量,但也可以看看赛选出了什么变量

lassocoef, display(coef)

在这里插入图片描述
OK,介绍完毕,stata17做lasso回归非常简单,而且出来的图片精美度也比以前提高了不少,我继续做其他图片的测试,再和大家一一汇报,觉得有用的话多多分享哟

如果在Stata进行Lasso回归时出现了收敛问题,即模型无法收敛或无法得出稳定的估计结果,可以考虑以下几种解决方法: 1. 调整惩罚项参数:Lasso回归中的惩罚项参数(通常是α)可以影响到模型的收敛性。尝试使用不同的惩罚项参数值,例如增大或减小α的值,看看是否可以改善模型的收敛性。 2. 增加迭代次数:Lasso回归通常使用迭代算法进行估计,例如坐标下降算法。增加迭代次数可以提高收敛的可能性。在Stata中,可以使用`lasso`命令的`maxiter()`选项来增加迭代次数。 3. 数据预处理:检查数据是否存在异常值、缺失值或极端的离群值。这些问题可能会导致模型的收敛性问题。尝试对数据进行清洗和预处理,例如删除异常值或填补缺失值,然后再次运行Lasso回归。 4. 减少自变量数量:Lasso回归通常用于变量选择的目的,可以尝试减少自变量的数量,特别是当自变量之间存在高度相关性时。通过减少自变量数量,可以减少模型的复杂度,有助于提高收敛的可能性。 5. 使用其他方法:如果Lasso回归Stata中无法收敛,可以尝试使用其他收缩估计方法,例如Ridge回归或Elastic Net回归。这些方法也可以实现变量选择和模型收缩的效果,并且可能对特定数据集更适用。 如果以上方法仍然无法解决收敛问题,建议参考相关文献或咨询专业人士,以获得更具体的建议和指导。
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天桥下的卖艺者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值