LASSO原作者的论文,来读读看

Regression Shrinkage and Selection via the lasso众所周知,Robert Tibshirani是统计领域的大佬,这篇文章在1996年提出了LASSO,之后风靡整个高维领域,并延伸出许多种模型。这篇文章截止2019.5.16已经获得了27991的引用量(跪下)。虽然LASSO是非常直观且大家都很熟悉的模型,但重温经典也无不可。了解一个模型就去读原作者...
摘要由CSDN通过智能技术生成

Regression Shrinkage and Selection via the lasso

众所周知,Robert Tibshirani是统计领域的大佬,这篇文章在1996年提出了LASSO,之后风靡整个高维领域,并延伸出许多种模型。这篇文章截止2019.5.16已经获得了27991的引用量(跪下)。

虽然LASSO是非常直观且大家都很熟悉的模型,但重温经典也无不可。了解一个模型就去读原作者的文章,获得的信息是最没有损失的。

Background introduction

在回归模型的场景中,我们使用最多的是最小二乘法估计参数(OLS)。

但OLS有很强的局限性,具体表现在:

  • 预测精度(prediction accuracy)

    OLS估计量出于最小化均方误差的目的,通常给出的估计结果有很低的偏差(拟合训练集的误差)但是有很高的方差(模型的泛化能力)

  • 解释能力(interpretation)

    保留大量的解释变量会降低模型的可解释性,因此需要找到一个具有很强影响力的解释变量子集。

为了解决上述问题,目前有两种方法:

  • subset selection

    Cons:通过筛选变量增加了模型的解释能力

    Pron:但是模型并不稳健,因为选择变量是一个离散的过程,变量只会面临进入或退出两种可能。数据的微小改变会导致模型非常大的改变,因此降低预测的准确性。

  • ridge regression

    Cons:是一个连续的变量系数缩减过程,因此较为稳定。

    Pron:没有设置任何变量的系数为0,不能形成解释力强的模型。

基于此,作者提出LASSO模型,全称为'least absolute shrinkage and selection operator'(最小绝对收敛和选择算子),能够同时保留两种方法的优点。

一个类似的模型是Breiman于1993年提出的non-negative garotte.
\[ (\hat{\alpha},\hat{\beta})=\arg min{\sum_{i=1}^N(y_i-\alpha-\sum_jc_j\hat{\beta_j}^ox_{ij})^2} \\subject \quad to\quad c_j\ge0\quad\sum_jc_j\le t \]
个人感觉这个模型是通过允许缩减系数的存在但限制缩减系数的大小来实现对传统回归模型的优化。该模型相较subset selection能够减少预测误差,效果和ridge regression差不多。但该模型直接使用了OLS估计,如果OLS估计量本身表现差,那么这个模型也会表现差。

LASSO避免了对OLS估计量的直接使用。

Basic ideas

接下来,作者以标准化的解释变量为例。set \(x^i=(x_{i1},\dots,x_{ip})^T\) ,where \(\sum_ix_{ij}/N=0,\sum_ix_{ij}^2/N=1\), i.e, \(X^T\cdot X=I\) .

参数向量\(\hat{\beta}=(\hat{\beta_1},\cdots,\hat{\beta_p})^T\),lasso估计量通过求解下列优化问题得到:
\[ (\hat{\alpha},\hat{\beta})=\arg min{\sum_{i=1}^N(y_i-\alpha-\sum_j\beta_jx_{ij})^2} \\subject \quad to\quad \sum_j|{\beta_j}|\le t \tag{1} \]
同时假设\(\bar{y}=0\),因此可以省略\(\alpha\)。估计最优系数不需要设计矩阵是满秩的,这一点对于高维问题有很好的适应性。

参数估计及解释(一元➡️二元)

方程(1)的解为
\[ \hat{\beta_j}=sign(\hat{\beta^0_j})(|\hat{\beta^0_j|}-\gamma)^+ \]

Ridge Regression Garotte Method
\(\frac{1}{1+\gamma}\hat{\beta_j^o}\) \((1-\frac{\gamma}{\hat{\beta_j^{o2}}})^+\hat{\beta_j^o}\)

接下来从图形上展示lasso方法,使用二维

空间p=2。由于lasso的限制条件是有棱角的,因此更容易切在某一维度的参数取零的点。

<
  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值