由于生存分析中涉及的变量数量比较庞大,经常有遇到处理高维数据的情况,这时在运用Cox模型前就有必要对变量进行选择,去除冗余,这一篇接着上一篇生存分析学习笔记,主要讲我对运用自适应Lasso方法对Cox模型进行变量选择的理解。
我们已经知道Cox模型的风险率结构表达式为
*(这里对上一篇进行一下补充,当βi>0,xi为危险因素,其值越大,死亡的风险率就越高,当βi<0,xi为保护因素,其值越大,死亡的风险率就越低。这也好理解,系数正负的问题,想一下就明白的事儿。)
上一篇对变量选择简单提过一些统计学上的方法,这些线性回归的变量选择技术诸如最佳子集选择法、逐步选择法、基于积分检验的渐进过程、瓦尔德检验、其他近似卡方检验过程、Bootstrap Procedure和贝叶斯变量选择法。这些方法都是不连续的,所以稳定性较差并且不适合高维数据。
Lasso回归
对于变量的选择,也可以换个角度来看,这也是一个去除无用变量的过程,如果能够让该变量前面的β变为0,那么我们就实现了对该变量的去除,这种思想来自于连续系数压缩的变量选择方法。有人考虑过岭回归,但其惩罚函数 λ||β||不能将系数压缩至0,因此岭回归不能做变量选择。Lasso将岭回归中基于L2范数的罚函数换为基于L1范数的罚函数,通过压缩系数绝对值的和以及调整参数λ的选择,可以同时实现变量选择和估计的连续稳定过程。
但Lasso