Stata版本目前已经更新到17了,外观也精美了许多,很增加了许多新的功能,如制作表格导出,双重差分法。自从更新到了16版本后自带了lasso回归功能,到了17以后功能更加强大了,多了可使用 “贝叶斯信息准则”(Bayesian Information Criterion,简记BIC)选择惩罚参数,新增选择项 “cluster(clustvar)” 来处理聚类数据。
LASSO 回归也叫套索回归,是通过生成一个惩罚函数是回归模型中的变量系数进行压缩,达到防止过度拟合,解决严重共线性的问题,LASSO 回归最先由英国人Robert Tibshirani提出,目前在预测模型中应用非常广泛。在新格兰文献中,有大牛提出,对于变量过多而且变量数较少的模型拟合,首先要考虑使用LASSO 惩罚函数。
我们继续使用我们的早产数据(公众号回复:早产数据,可以获得数据),做一个LASSO的逻辑回归,我们先导入数据,我是直接黏贴
数据有8个指标,最后两个是PSM匹配结果,我们不用理他,其余六个为:
Education:教育程度,age:年龄,parity产次,induced:人流次数,case:是否不孕,这是结局指标,spontaneous:自然流产次数。
先把Education这个指标转成数字
g edu=2
replace edu=0 if education=="0-5yrs"
replace edu=1 if education=="6-11yrs"
下图展示了stata做各个模型的格式,我们对着做就行了
lasso logit回归,selection选择cv, alllambd就是交叉验证模式,这里默认的是10折,如果选择selection(bic)则是贝叶斯信息准则验证。交叉验证在我既往的文章《基于R语言进行K折交叉验证》中有介绍,感兴趣的可以取看一看,rseed(1234)等于是设置一个种子,有可重复性。
lasso logit case age i.edu parity i.induced i.spontaneous , selection(cv, alllambdas) stop(0) rseed(1234)
从上图可以看出软件选择了星号ID为30,lambda= .0105207 共有8个coef,(这里注意一下,像edu这个分类变量是等于2个coef的)
查看选值过程
Lassoknots
打出交叉验证图
cvplot
上图给出了调节参数的最优值 ,即得函数最小的值。从上图可知,在最优值附近,函数 非常平坦,这意味着在最优值附近变化,对于模型的预测能力很稳定。
使用coefpath函数来绘制lasso的系数路径(coefficient paths),
coefpath,legend(on position(12) cols(4))
以对数尺度来做图,xline(0105207)可以设置一条参考线
coefpath, legend(on position(12) cols(4)) xunits(lnlambda) xline(.0034851)
还可以使用lassocoef函数提取系数值,其实这步意义不大,我们主要是想筛选变量,但也可以看看赛选出了什么变量
lassocoef, display(coef)
OK,介绍完毕,stata17做lasso回归非常简单,而且出来的图片精美度也比以前提高了不少,我继续做其他图片的测试,再和大家一一汇报,觉得有用的话多多分享哟