手把手教你使用stata进行lasso回归

最新推荐文章于 2024-09-20 21:13:48 发布

天桥下的卖艺者

最新推荐文章于 2024-09-20 21:13:48 发布

阅读量1.4w

点赞数 20

分类专栏： Stata 文章标签：算法

本文链接：https://blog.csdn.net/dege857/article/details/124090571

版权

Stata 专栏收录该内容

21 篇文章 77 订阅

订阅专栏

Stata版本目前已经更新到17了，外观也精美了许多，很增加了许多新的功能，如制作表格导出，双重差分法。自从更新到了16版本后自带了lasso回归功能，到了17以后功能更加强大了，多了可使用 “贝叶斯信息准则”（Bayesian Information Criterion，简记BIC）选择惩罚参数，新增选择项 “cluster(clustvar)” 来处理聚类数据。
在这里插入图片描述

LASSO 回归也叫套索回归，是通过生成一个惩罚函数是回归模型中的变量系数进行压缩，达到防止过度拟合，解决严重共线性的问题，LASSO 回归最先由英国人Robert Tibshirani提出，目前在预测模型中应用非常广泛。在新格兰文献中，有大牛提出，对于变量过多而且变量数较少的模型拟合，首先要考虑使用LASSO 惩罚函数。
我们继续使用我们的早产数据（公众号回复：早产数据，可以获得数据），做一个LASSO的逻辑回归，我们先导入数据，我是直接黏贴
在这里插入图片描述
数据有8个指标，最后两个是PSM匹配结果，我们不用理他，其余六个为：
Education：教育程度，age:年龄，parity产次，induced：人流次数，case：是否不孕，这是结局指标，spontaneous：自然流产次数。

先把Education这个指标转成数字

g edu=2
replace edu=0 if education=="0-5yrs"
replace edu=1 if education=="6-11yrs"

下图展示了stata做各个模型的格式，我们对着做就行了
在这里插入图片描述
lasso logit回归，selection选择cv, alllambd就是交叉验证模式,这里默认的是10折，如果选择selection(bic)则是贝叶斯信息准则验证。交叉验证在我既往的文章《基于R语言进行K折交叉验证》中有介绍，感兴趣的可以取看一看，rseed(1234)等于是设置一个种子，有可重复性。

lasso logit case age i.edu parity i.induced i.spontaneous , selection(cv, alllambdas) stop(0) rseed(1234)

在这里插入图片描述
从上图可以看出软件选择了星号ID为30，lambda= .0105207 共有8个coef，（这里注意一下，像edu这个分类变量是等于2个coef的）
查看选值过程

Lassoknots

在这里插入图片描述
打出交叉验证图

cvplot

在这里插入图片描述
上图给出了调节参数的最优值，即得函数最小的值。从上图可知，在最优值附近，函数非常平坦，这意味着在最优值附近变化，对于模型的预测能力很稳定。
使用coefpath函数来绘制lasso的系数路径（coefficient paths），

coefpath,legend(on position(12) cols(4))

在这里插入图片描述
以对数尺度来做图，xline(0105207)可以设置一条参考线

coefpath, legend(on position(12) cols(4)) xunits(lnlambda) xline(.0034851)

在这里插入图片描述
还可以使用lassocoef函数提取系数值,其实这步意义不大，我们主要是想筛选变量，但也可以看看赛选出了什么变量

lassocoef, display(coef)

在这里插入图片描述
OK，介绍完毕，stata17做lasso回归非常简单，而且出来的图片精美度也比以前提高了不少，我继续做其他图片的测试，再和大家一一汇报，觉得有用的话多多分享哟