Regression Shrinkage and Selection via the lasso
众所周知,Robert Tibshirani是统计领域的大佬,这篇文章在1996年提出了LASSO,之后风靡整个高维领域,并延伸出许多种模型。这篇文章截止2019.5.16已经获得了27991的引用量(跪下)。
虽然LASSO是非常直观且大家都很熟悉的模型,但重温经典也无不可。了解一个模型就去读原作者的文章,获得的信息是最没有损失的。
Background introduction
在回归模型的场景中,我们使用最多的是最小二乘法估计参数(OLS)。
但OLS有很强的局限性,具体表现在:
预测精度(prediction accuracy)
OLS估计量出于最小化均方误差的目的,通常给出的估计结果有很低的偏差(拟合训练集的误差)但是有很高的方差(模型的泛化能力)
解释能力(interpretation)
保留大量的解释变量会降低模型的可解释性,因此需要找到一个具有很强影响力的解释变量子集。
为了解决上述问题,目前有两种方法:
subset selection
Cons:通过筛选变量增加了模型的解释能力。
Pron:但是模型并不稳健,因为选择变量是一个离散的过程,变量只会面临进入或退出两种可能。数据的微小改变会导致模型非常大的改变,因此降低预测的准确性。
ridge regression
Cons:是一个连续的变量系数缩减过程,因此较为稳定。
Pron:没有设置任何变量的系数为0,不能形成解释力强的模型。
基于此,作者提出LASSO模型,全称为'least absolute shrinkage and selection operator'(最小绝对收敛和选择算子),能够同时保留两种方法的优点。
一个类似的模型是Breiman于1993年提出的non-negative garotte.
\[ (\hat{\alpha},\hat{\beta})=\arg min{\sum_{i=1}^N(y_i-\alpha-\sum_jc_j\hat{\beta_j}^ox_{ij})^2} \\subject \quad to\quad c_j\ge0\quad\sum_jc_j\le t \]
个人感觉这个模型是通过允许缩减系数的存在但限制缩减系数的大小来实现对传统回归模型的优化。该模型相较subset selection能够减少预测误差,效果和ridge regression差不多。但该模型直接使用了OLS估计,如果OLS估计量本身表现差,那么这个模型也会表现差。
LASSO避免了对OLS估计量的直接使用。
Basic ideas
接下来,作者以标准化的解释变量为例。set \(x^i=(x_{i1},\dots,x_{ip})^T\) ,where \(\sum_ix_{ij}/N=0,\sum_ix_{ij}^2/N=1\), i.e, \(X^T\cdot X=I\) .
参数向量\(\hat{\beta}=(\hat{\beta_1},\cdots,\hat{\beta_p})^T\),lasso估计量通过求解下列优化问题得到:
\[ (\hat{\alpha},\hat{\beta})=\arg min{\sum_{i=1}^N(y_i-\alpha-\sum_j\beta_jx_{ij})^2} \\subject \quad to\quad \sum_j|{\beta_j}|\le t \tag{1} \]
同时假设\(\bar{y}=0\),因此可以省略\(\alpha\)。估计最优系数不需要设计矩阵是满秩的,这一点对于高维问题有很好的适应性。
参数估计及解释(一元➡️二元)
方程(1)的解为
\[ \hat{\beta_j}=sign(\hat{\beta^0_j})(|\hat{\beta^0_j|}-\gamma)^+ \]
Ridge Regression | Garotte Method |
---|---|
\(\frac{1}{1+\gamma}\hat{\beta_j^o}\) | \((1-\frac{\gamma}{\hat{\beta_j^{o2}}})^+\hat{\beta_j^o}\) |
接下来从图形上展示lasso方法,使用二维
空间p=2。由于lasso的限制条件是有棱角的,因此更容易切在某一维度的参数取零的点。
<