手把手教你使用stata进行lasso回归

Stata版本目前已经更新到17了,外观也精美了许多,很增加了许多新的功能,如制作表格导出,双重差分法。自从更新到了16版本后自带了lasso回归功能,到了17以后功能更加强大了,多了可使用 “贝叶斯信息准则”(Bayesian Information Criterion,简记BIC)选择惩罚参数,新增选择项 “cluster(clustvar)” 来处理聚类数据。
在这里插入图片描述
在这里插入图片描述
LASSO 回归也叫套索回归,是通过生成一个惩罚函数是回归模型中的变量系数进行压缩,达到防止过度拟合,解决严重共线性的问题,LASSO 回归最先由英国人Robert Tibshirani提出,目前在预测模型中应用非常广泛。在新格兰文献中,有大牛提出,对于变量过多而且变量数较少的模型拟合,首先要考虑使用LASSO 惩罚函数。
我们继续使用我们的早产数据(公众号回复:早产数据,可以获得数据),做一个LASSO的逻辑回归,我们先导入数据,我是直接黏贴
在这里插入图片描述
数据有8个指标,最后两个是PSM匹配结果,我们不用理他,其余六个为:
Education:教育程度,age:年龄,parity产次,induced:人流次数,case:是否不孕,这是结局指标,spontaneous:自然流产次数。
在这里插入图片描述
先把Education这个指标转成数字

g edu=2
replace edu=0 if education=="0-5yrs"
replace edu=1 if education=="6-11yrs"

下图展示了stata做各个模型的格式,我们对着做就行了
在这里插入图片描述
lasso logit回归,selection选择cv, alllambd就是交叉验证模式,这里默认的是10折,如果选择selection(bic)则是贝叶斯信息准则验证。交叉验证在我既往的文章《基于R语言进行K折交叉验证》中有介绍,感兴趣的可以取看一看,rseed(1234)等于是设置一个种子,有可重复性。

lasso logit case age i.edu parity i.induced i.spontaneous , selection(cv, alllambdas) stop(0) rseed(1234)

在这里插入图片描述
从上图可以看出软件选择了星号ID为30,lambda= .0105207 共有8个coef,(这里注意一下,像edu这个分类变量是等于2个coef的)
查看选值过程

Lassoknots

在这里插入图片描述
打出交叉验证图

cvplot

在这里插入图片描述
上图给出了调节参数的最优值 ,即得函数最小的值。从上图可知,在最优值附近,函数 非常平坦,这意味着在最优值附近变化,对于模型的预测能力很稳定。
使用coefpath函数来绘制lasso的系数路径(coefficient paths),

coefpath,legend(on position(12) cols(4))

在这里插入图片描述
以对数尺度来做图,xline(0105207)可以设置一条参考线

coefpath, legend(on position(12) cols(4)) xunits(lnlambda) xline(.0034851)

在这里插入图片描述
还可以使用lassocoef函数提取系数值,其实这步意义不大,我们主要是想筛选变量,但也可以看看赛选出了什么变量

lassocoef, display(coef)

在这里插入图片描述
OK,介绍完毕,stata17做lasso回归非常简单,而且出来的图片精美度也比以前提高了不少,我继续做其他图片的测试,再和大家一一汇报,觉得有用的话多多分享哟

  • 20
    点赞
  • 80
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天桥下的卖艺者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值