Lasso及其扩展

​ 在统计和机器学习中,Lasso(最小绝对收缩和选择算子)是一种回归分析方法,执行变量选择和正则化 ,以提高预测精度和结果统计模型的可解释性。它最初是在地球物理学中引入的,后来Robert Tibshirani提出这一术语。

Lasso最初是为线性回归模型而推导的。这个简单的情形揭示了关于估计量的很多信息,包括它与岭回归和最佳子集选择的关系,以及Lasso回归系数和所谓的软阈值之间的联系。它还揭示了(像标准线性回归),如果协变量共线,那么系数估计可能不唯一。

​ 虽然最初定义为线性回归,但Lasso很容易扩展到其他统计模型,包括广义线性模型、广义估计方程、比例风险模型和 M M M 估计。Lasso执行子集选择的能力依赖于约束的形式,并有多种解释,包括几何,贝叶斯统计和凸分析等。

历史

​ 为了提高回归模型的预测精度和可解释性,引入了Lasso。它选择一个已知协变量的简化集用于模型。

​ Lasso是1986年在地球物理文献中被独立发现的,基于之前的工作,使用 L 1 L^1 L1惩罚函数来拟合和惩罚系数。1996年,统计学家Robert Tibshirani根据Breiman的非负绞喉理论,独立地重新发现并推广了这一理论。

​ 在Lasso之前,最广泛使用的协变量选择方法是逐步选择(stepwise selection) 。这种方法只在某些情况下提高了预测的准确性,比如只有少数协变量与结果有很强的关系。然而,在其他情况下,它会增加预测误差。

​ 当时,岭回归 是最常用的提高预测精度的技术。岭回归通过将回归系数的平方和缩小到小于固定值来改善预测误差,以减少过拟合,但它不进行协变量选择,因此无助于使模型更具可解释性。

​ Lasso通过迫使回归系数绝对值的总和小于固定值来实现这两个目标,这迫使某些系数为零,排除他们影响预测。这一想法类似于岭回归,它也缩小了系数的大小,然而岭回归倾向于设置更少的系数为零。

基本形式

最小二乘

min ⁡ β 0 , β { ∑ i = 1 N ( y i − β 0 − x i T β ) 2 }  subject to  ∑ j = 1 p ∣ β j ∣ ≤ t \min _{\beta _{0},\beta }\left\{\sum _{i=1}^{N}(y_{i}-\beta _{0}-x_{i}^{T}\beta )^{2}\right\}{\text{ subject to }}\sum _{j=1}^{p}|\beta _{j}|\leq t β0,βmin{i=1N(yiβ0xiTβ)2} subject to j=1pβjt

Here β 0 \beta _{0} β0 is the constant coefficient, β : = ( β 1 , β 2 , … , β p ) \beta :=(\beta _{1},\beta _{2},\ldots ,\beta _{p}) β:=(β1,β2,,βp) is the coefficient vector, and t t t is a prespecified free parameter that determines the degree of regularization. Note that
y i − β ^ 0 − x i T β = y i − ( y ˉ − x ˉ T β ) − x i T β = ( y i − y ˉ ) − ( x i − x ˉ ) T β , y_i - \hat {\beta }_{0} - x_{i}^{T}\beta = y_i - ({\bar {y}}-{\bar {x}}^{T}\beta) - x_{i}^{T}\beta = (y_i - \bar {y}) - (x_i - \bar{x})^T\beta, yiβ^0xiTβ=yi(yˉxˉTβ)xiTβ=(yiyˉ)(xixˉ)Tβ,

and therefore it is standard to work with variables that have been made zero-mean. Additionally, the covariates are typically standardized ( ∑ i = 1 N x i 2 = 1 \sum _{i=1}^{N}x_{i}^{2}=1 i=1Nxi2=1 ) so that the solution does not depend on the measurement scale.

It can be helpful to rewrite
min ⁡ β ∈ R p { 1 N ∥ y − X β ∥ 2 2 }  subject to  ∥ β ∥ 1 ≤ t . \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}\right\}{\text{ subject to }}\|\beta \|_{1}\leq t. βRpmin{N1y22} subject to β1t.
in the so-called Lagrangian form
min ⁡ β ∈ R p { 1 N ∥ y − X β ∥ 2 2 + λ ∥ β ∥ 1 } , \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2} + \lambda\|\beta \|_{1} \right\}, βRpmin{N1y22+λβ1},
where the exact relationship between t t t and λ \lambda λ is data dependent.

正交协变量

Assuming first that the covariates are orthonormalso that x i T x j = δ i j x_{i}^{T}x_{j}=\delta _{ij} xiTxj=δij, or, equivalently, X T X = I X^{T}X=I XTX=I , then using subgradient methods it can be shown that
β ^ j = S N λ ( β ^ j OLS ) = β ^ j OLS max ⁡ ( 0 , 1 − N λ ∣ β ^ j OLS ∣ ) ,  where  β ^ OLS = ( X T X ) − 1 X T y . \begin{aligned} {\hat {\beta }}_{j}={} &S_{N\lambda }({\hat {\beta }}_{j}^{\text{OLS}})={\hat {\beta }}_{j}^{\text{OLS}}\max \left(0,1-{\frac {N\lambda }{|{\hat {\beta }}_{j}^{\text{OLS}}|}}\right),\\ &{\text{ where }}{\hat {\beta }}^{\text{OLS}}=(X^{T}X)^{-1}X^{T}y. \end{aligned} β^j=SNλ(β^jOLS)=β^jOLSmax 0,1β^jOLSNλ , where β^OLS=(XTX)1XTy.

S α S_{\alpha } Sα is referred to as the soft thresholding operator, since it translates values towards zero (making them exactly zero if they are small enough), instead of setting smaller values to zero and leaving larger ones untouched as the hard thresholding operator, often denoted H α H_{\alpha } Hα, would.

下面对比岭回归和最佳子集选择回归。

  • In ridge regression , the objective is to minimize
    min ⁡ β ∈ R p { 1 N ∥ y − X β ∥ 2 2 + λ ∥ β ∥ 2 } , \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2} + \lambda\|\beta \|_{2} \right\}, βRpmin{N1y22+λβ2},

    yielding
    β ^ j = ( 1 + N λ ) − 1 β ^ j OLS \hat{\beta }_{j}=(1+N\lambda )^{-1}{\hat {\beta }}_{j}^{\text{OLS}} β^j=(1+Nλ)1β^jOLS
    Ridge regression shrinks all coefficients by a uniform factor of ( 1 + N λ ) − 1 (1+N\lambda )^{-1} (1+Nλ)1 and does not set any coefficients to zero. [Edit: This is not correct. The correct solution to ridge regression is :

    β ^ = ( ( X T X ) + N λ I ) − 1 X T y . \hat {\beta }=\left((X^{T}X)+N\lambda I\right)^{-1}X^{T}y. β^=((XTX)+NλI)1XTy.

  • In best subset selection , the goal is to minimize
    min ⁡ β ∈ R p { 1 N ∥ y − X β ∥ 2 2 + λ ∥ β ∥ 0 } , \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{0}\right \}, βRpmin{N1y22+λβ0},
    where ∥ ⋅ ∥ 0 \|\cdot \|_{0} 0 is the " ℓ 0 \ell ^{0} 0 norm", which is defined as ∥ z ∥ = m \|z\|=m z=m if exactly m components of z are nonzero. I n this case, it can be shown that
    β ^ j = H N λ ( β ^ j OLS ) = β ^ j OLS I ( ∣ β ^ j OLS ∣ ≥ N λ ) \hat {\beta }_{j}=H_{\sqrt {N\lambda }}\left({\hat {\beta }}_{j}^{\text{OLS}}\right)={\hat {\beta }}_{j}^{\text{OLS}}\mathrm {I} \left(\left|{\hat {\beta }}_{j}^{\text{OLS}}\right|\geq {\sqrt {N\lambda }}\right) β^j=HNλ (β^jOLS)=β^jOLSI( β^jOLS Nλ )
    where H α H_{\alpha } Hα is the so-called hard thresholding function and I \mathrm {I} I is an indicator function (it is 1 if its argument is true and 0 otherwise).

    因此,Lasso估计集中了岭回归和最佳子集选择回归的优点。比如,岭回归中的缩小所有系数的大小;最佳子集选择回归中的设置一些系数为0。此外,岭回归所有系数的范围由一个常量因子控制,Lasso则转换系数为零通过一个常量值,并设置他们为零,如果他们达到它。

相关协变量

i
In one special case two covariates, say j and k, are identical for each observation, so that x ( j ) = x ( k ) x_{(j)}=x_{(k)} x(j)=x(k), where x ( j ) , i = x ( k ) , i x_{(j),i}=x_{(k),i} x(j),i=x(k),i. Then the values of β j \beta _{j} βj and β k \beta _{k} βk that minimize the lasso objective function are not uniquely determined.
​ In fact, if some β ^ \hat{\beta} β^ in which β j ^ β k ^ ≥ 0 \hat{\beta_j}\hat{\beta_k}\ge 0 βj^βk^0, then if s ∈ [ 0 , 1 ] s \in [0,1] s[0,1] replacing β j ^ \hat{\beta _{j}} βj^ by s ( β j ^ + β k ^ ) s(\hat{\beta_j} + \hat{\beta_k}) s(βj^+βk^) and β k ^ \hat{\beta _{k}} βk^ by ( 1 − s ) ( β j ^ + β k ^ ) (1-s)(\hat{\beta_j} + \hat{\beta_k}) (1s)(βj^+βk^) , while keeping all the other β i ^ \hat{\beta _{i}} βi^ fixed, gives a new solution, so the lasso objective function then has a continuum of valid minimizers.

​ Several variants of the lasso, including the Elastic net regularization, have been designed to address this shortcoming.

广义形式

Lasso正则化可以拓展到其他目标函数中,比如广义线性模型,广义估计模型,比例风险模型,以及M估计量。给定目标函数
1 N ∑ i = 1 N f ( x i , y i , α , β ) \frac{1}{N}\sum^N_{i=1} f(x_i,y_i,\alpha,\beta) N1i=1Nf(xi,yi,α,β)
估计量的Lasso正则化 版本为下述表达式的解:
min ⁡ α , β 1 N ∑ i = 1 N f ( x i , y i , α , β )   subject to ∥ β ∥ 1 ≤ t , \min_{\alpha,\beta}\frac{1}{N}\sum^N_{i=1} f(x_i,y_i,\alpha,\beta)\,\text{subject to}\|\beta\|_1\le t, α,βminN1i=1Nf(xi,yi,α,β)subject toβ1t,
其中 α \alpha α 可以自由取值,只有 β \beta β 被惩罚。就像在最初情形中, β 1 \beta_1 β1被惩罚, β 0 \beta_0 β0自由取值一样。

解释

几何解释

Lasso可以将系数设为0,而与之表面相似的岭回归不能。这是由于两者的限制边界不同。但Lasso和岭回归都可以解释最小化相同的目标函数
min ⁡ β 0 , β { 1 N ∥ y − β 0 − X β ∥ 2 2 } \min _{\beta _{0},\beta }\left\{{\frac {1}{N}}\left\|y-\beta _{0}-X\beta \right\|_{2}^{2}\right\} β0,βmin{N1yβ022}
但优化的限制区域不同,Lasso是方形区域,岭回归是圆形区域。一个与边界相切的凸物体,如图中所示的线,可能会遇到超立方体的一个角(或高维等值面),其某些分量等于零。而在n维球的情况下,边界上某些分量为零的点与其他点之间没有区别,凸物体接触某些分量为零的点的可能性并不比接触一个分量为零的点的可能性大。

Bayes 解释

  • 岭回归可以解释为线性回归的系数被分配了正态先验分布。

  • Lasso可以解释为线性回归的系数有Laplace先验分布。Laplace分布在0处急剧达到峰值(它的一阶导数在0处不连续),它集中的概率质量比正态分布更接近于0。

    这也提供了一个替代解释为什么Lasso倾向于设置一些系数为零,而岭回归没有。

凸松弛解释

  • Lasso也可以看作是一个凸松弛的最佳子集选择回归问题,该问题为,对固定的 k ≤ n k\le n kn, 发现 ≤ k \le k k 个协变量的子集,该子集是目标函数取得最小值,其中 n n n 为协变量的总个数。
  • 0范数可以看成p范数的极限。当 p < 1 p<1 p<1 时,p范数不是凸的,因此, p = 1 p = 1 p=1 是使得p范数为凸的最小值。
  • 在某种意义上,Lasso是最佳子集选择问题的最优凸逼近。因为 ∥ x ∥ 1 ≤ t \|x\|_1\le t x1t 定义的区域是 ∥ x ∥ p ≤ t \|x\|_p\le t xpt定义的区域的凸包。

扩展方法

​ Lasso的变种已经被创造出来,以弥补原始技术的限制,并使方法对特殊问题更有用。几乎所有这些重点都是尊重或利用协变量之间的依赖性。
弹性网络正则化(Elastic net regularization)增加了一个额外的岭回归惩罚。当预测数大于样本容量时,可以提高性能,允许该方法选择强相关的变量一起,并提高整体预测精度。

​ Group Lasso允许相关的一组协变量被选择作为一个单一的单位。更多的扩展有sparse group lassooverlap group lasso

​ 融合 Lasso(Fused lasso)可以解释问题的空间或时间特征,从而更好地估计匹配系统结构。Lasso正则化模型可以用一些技术来拟合,比如次梯度方法,最小角回归(least-angle regression)以及近端梯度方法(proximal gradient method)。 确定正则化参数的最优值是保证模型良好运行的重要组成部分,它通常使用交叉验证(cross-validation)来选择。

Elastic net

​ 2005年,张提出弹性网络回归。当协变量个数大于样本数时 p > n p>n p>n ,lasso 只能挑选出n个协变量(即便有更多与结果相关),并且它趋向于从任一个高度相关的协变量集合中挑选一个。此外,当 n > p n > p n>p时,对给定的强相关的协变量,岭回归可能表现更好。
The elastic net extends lasso by adding an additional ℓ 2 \ell ^{2} 2 penalty term giving
min ⁡ β ∈ R p { ∥ y − X β ∥ 2 2 + λ 1 ∥ β ∥ 1 + λ 2 ∥ β ∥ 2 2 } , \min _{\beta \in \mathbb {R} ^{p}}\left\{\left\|y-X\beta \right\|_{2}^{2}+\lambda _{1}\|\beta \|_{1}+\lambda _{2}\|\beta \|_{2}^{2}\right\}, βRpmin{y22+λ1β1+λ2β22},
which is equivalent to solving
min ⁡ β { ∥ y − X β ∥ 2 2 }  subject to  ( 1 − α ) ∥ β ∥ 1 + α ∥ β ∥ 2 2 ≤ t ,  where  α = λ 2 λ 1 + λ 2 . \begin{aligned} \min _{\beta }\left\{\left\|y-X\beta \right\|_{2}^{2}\right\}&{\text{ subject to }}(1-\alpha )\|\beta \|_{1}+\alpha \|\beta \|_{2}^{2}\leq t,\\&{\text{ where }}\alpha ={\frac {\lambda _{2}}{\lambda _{1}+\lambda _{2}}}. \end{aligned} βmin{y22} subject to (1α)β1+αβ22t, where α=λ1+λ2λ2.
This problem can be written in a simple lasso form
min ⁡ β ∗ ∈ R p { ∥ y ∗ − X ∗ β ∗ ∥ 2 2 + λ ∗ ∥ β ∗ ∥ 1 } \min _{\beta ^{*}\in \mathbb {R} ^{p}}\left\{\left\|y^{*}-X^{*}\beta ^{*}\right\|_{2}^{2}+\lambda ^{*}\|\beta ^{*}\|_{1}\right\} βRpmin{yXβ22+λβ1}
letting
X ( n + p ) × p ∗ = ( 1 + λ 2 ) − 1 / 2 ( X λ 2 1 / 2 I p × p ) , X_{(n+p)\times p}^{*}=(1+\lambda _{2})^{-1/2}{\binom {X}{\lambda _{2}^{1/2}I_{p\times p}}}, X(n+p)×p=(1+λ2)1/2(λ21/2Ip×pX),

y ( n + p ) ∗ = ( y 0 p ) , λ ∗ = λ 1 1 + λ 2 y_{(n+p)}^{*}={\binom {y}{0^{p}}},\qquad \lambda ^{*}={\frac {\lambda _{1}}{\sqrt {1+\lambda _{2}}}} y(n+p)=(0py),λ=1+λ2 λ1

β ∗ = 1 + λ 2 β . \beta ^{*}={\sqrt {1+\lambda _{2}}}\beta . β=1+λ2 β.

Then β ^ = β ^ ∗ 1 + λ 2 \hat {\beta }={\frac {{\hat {\beta }}^{*}}{\sqrt {1+\lambda _{2}}}} β^=1+λ2 β^ ,which,when the covariates are orthogonal to each other, gives
β ^ j = β ^ j *,OLS 1 + λ 2 max ⁡ ( 0 , 1 − λ ∗ ∣ β ^ j *,OLS ∣ ) = β ^ j OLS 1 + λ 2 max ⁡ ( 0 , 1 − λ 1 ∣ β ^ j OLS ∣ ) = ( 1 + λ 2 ) − 1 β ^ j lasso . \hat {\beta }_{j}={\frac {{\hat {\beta }}_{j}^{\text{*,OLS}}}{\sqrt {1+\lambda _{2}}}}\max \left(0,1-{\frac {\lambda ^{*}}{\left|{\hat {\beta }}_{j}^{\text{*,OLS}}\right|}}\right)={\frac {{\hat {\beta }}_{j}^{\text{OLS}}}{1+\lambda _{2}}}\max \left(0,1-{\frac {\lambda _{1}}{\left|{\hat {\beta }}_{j}^{\text{OLS}}\right|}}\right)=(1+\lambda _{2})^{-1}{\hat {\beta }}_{j}^{\text{lasso}}. β^j=1+λ2 β^j*,OLSmax 0,1 β^j*,OLS λ =1+λ2β^jOLSmax 0,1 β^jOLS λ1 =(1+λ2)1β^jlasso.

So the result of the elastic net penalty is a combination of the effects of the lasso and ridge penalties.

Returning to the general case, the fact that the penalty function is now strictly convex means that if x ( j ) = x ( k ) x_{(j)}=x_{(k)} x(j)=x(k), β ^ j = β ^ k \hat {\beta }_{j}=\hat {\beta }_k β^j=β^k, which is a change from lasso.(临界点)

In general, if β ^ j β k ^ > 0 \hat {\beta }_{j}\hat {\beta _{k}}>0 β^jβk^>0
∣ β ^ j − β k ^ ∣ ∥ y ∥ 1 ≤ λ 2 − 1 2 ( 1 − ρ j k ) , \frac {|{\hat {\beta }}_{j}-{\hat {\beta _{k}}}|}{\|y\|_1}\leq \lambda _{2}^{-1}{\sqrt {2(1-\rho _{jk})}}, y1β^jβk^λ212(1ρjk) ,
where, ρ = X t X \rho =X^{t}X ρ=XtX is the sample correlation matrix because the x‘s are normalized.

​ 因此,高度相关往往会有相似的回归系数,相似程度依赖于 ∥ y ∥ 1 \|y\|_1 y1 λ 2 \lambda_2 λ2 ,这一点上和lasso不同. 这种强相关协变量具有相似回归系数的现象称为分组效应(grouping effect)。

​ 分组是可取的,因为在诸如将基因与疾病联系起来的应用中,找到所有相关的协变量是可取的,而不是像Lasso经常做的那样,从每一组相关的协变量中选择一个。此外,从每组中只选择一个通常会导致预测误差增加,因为模型的鲁棒性较差(这就是为什么岭回归往往优于Lasso)。

Group lasso

​ 2006年,Yuan和Lin引入了组套索(group lasso),允许预定义的协变量组共同选择进入或退出一个模型。这在许多情形中都是有用的,也许最明显的是当分类变量被编码为二进制协变量的集合 时。在这种情况下,组套索可以确保所有编码分类协变量的变量被纳入或排除在一起。

​ 另一个自然的分组的情形是生物研究。由于基因和蛋白质通常位于已知的途径中,因此,哪些途径与结果相关可能比单个基因是否相关更重要。

​ 群Lasso的目标函数是标准Lasso目标函数的自然泛化:
min ⁡ β ∈ R p { ∥ y − ∑ j = 1 J X j β j ∥ 2 2 + λ ∑ j = 1 J ∥ β j ∥ K j } , ∥ z ∥ K j = ( z t K j z ) 1 / 2 \min _{\beta \in \mathbb {R} ^{p}}\left\{\left\|y-\sum _{j=1}^{J}X_{j}\beta _{j}\right\|_{2}^{2}+\lambda \sum _{j=1}^{J}\|\beta _{j}\|_{K_{j}}\right\},\qquad \|z\|_{K_{j}}=(z^{t}K_{j}z)^{1/2} βRpmin yj=1JXjβj 22+λj=1JβjKj ,zKj=(ztKjz)1/2
X j X_j Xj is a collection of design matrices X X X.

​ If each covariate is in its own group and K j = I K_j = I Kj=I, then this reduces to the standard lasso, while if there is only a single group and K 1 = I K_1 = I K1=I, it reduces to ridge regression.
由于惩罚减少到每组定义的子空间上的一个范数,它不能只从组中选择一些协变量,就像岭回归不能那样。然而,由于惩罚是不同子空间规范的和,如在标准Lasso中,约束有一些非微分点,这些点对应于一些同零的子空间。因此,它可以使某些子空间对应的系数向量为零,而只收缩其他子空间。

​ 然而,可以将组套索扩展到所谓的稀疏组套索(sparse group lasso),它可以通过对每个组子空间增加额外的惩罚来选择组内的个体协变量另一个延伸,重叠的群体套索允许协变量在群体之间共享。例如,如果一个基因在两个途径中发生。

Fused lasso

​ 在某些情况下,所研究的现象可能具有重要的空间或时间结构,在分析时必须考虑这些结构,例如时间序列或基于图像的数据。
​ 2005年,Tibshirani和同事们引入了融合套索,将Lasso的使用扩展到这类数据。Fused Lasso的目标函数为
min ⁡ β { 1 N ∑ i = 1 N ( y i − x i t β ) 2 }  subject to  ∑ j = 1 p ∣ β j ∣ ≤ t 1  and  ∑ j = 2 p ∣ β j − β j − 1 ∣ ≤ t 2 . \begin{aligned}&\min _{\beta }\left\{{\frac {1}{N}}\sum _{i=1}^{N}\left(y_{i}-x_{i}^{t}\beta \right)^{2}\right\}\\[4pt]&{\text{ subject to }}\sum _{j=1}^{p}|\beta _{j}|\leq t_{1}{\text{ and }}\sum _{j=2}^{p}|\beta _{j}-\beta _{j-1}|\leq t_{2}.\end{aligned} βmin{N1i=1N(yixitβ)2} subject to j=1pβjt1 and j=2pβjβj1t2.
​ 第一个约束是Lasso约束,而第二个直接惩罚在时间或空间结构方面的大变化,这迫使系数平滑地变化,以反映系统的基本逻辑。

Clustered Lasso 是Fused lasso的推广,识别和组相关协变量基于他们的影响(系数)。基本的思想是惩罚系数之间的差异,使非零的聚在一起。这可以使用以下正则化建模:
∑ i < j p ∣ β i − β j ∣ ≤ t 2 \sum _{i<j}^{p}|\beta _{i}-\beta _{j}|\leq t_{2} i<jpβiβjt2
​ 相反,可以将变量聚类成高度相关的组,然后从每个聚类中提取一个具有代表性的协变量。

​ 现有的算法可以解决融合套索问题,并对其进行了推广。算法可以在有限的运算中精确地求解它。

Quasi-norms and bridge regression

​ Lasso、elastic net、group和fused lasso使用 ℓ 1 \ell^1 1 ℓ 2 \ell^2 2范数构造惩罚函数。Bridge回归使用一般的 ℓ p \ell^p p范数( p ≥ 1 p\ge 1 p1)或者拟范数( 0 < p < 1 0<p<1 0<p<1).

和规范构造惩罚函数(必要时可加权重)。

​ 比如,对于 p = 1 / 2 p=1/2 p=1/2,类似于拉格朗日形式的套索目标是解决下述问题:
min ⁡ β ∈ R p { 1 N ∥ y − X β ∥ 2 2 + λ ∥ β ∥ 1 / 2 } , \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda {\sqrt {\|\beta \|_{1/2}}}\right\}, βRpmin{N1y22+λβ1/2 },
其中
∥ β ∥ 1 / 2 = ( ∑ j = 1 p ∣ β j ∣ ) 2 \|\beta \|_{1/2}=\left(\sum _{j=1}^{p}{\sqrt {|\beta _{j}|}}\right)^{2} β1/2=(j=1pβj )2

min ⁡ β ∈ R p { 1 N ∥ y − X β ∥ 2 2 + λ ∑ j = 1 p ϑ ( β j 2 ) } , \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \sum _{j=1}^{p}\vartheta (\beta _{j}^{2})\right\}, βRpmin{N1y22+λj=1pϑ(βj2)},

其中, ϑ ( γ ) \vartheta(\gamma) ϑ(γ) 是任一单调递增的凹函数(比如, ϑ ( γ ) = γ \vartheta(\gamma) = \sqrt{\gamma} ϑ(γ)=γ 给了Lasso惩罚, ϑ ( γ ) = γ 1 / 4 \vartheta(\gamma) = \gamma^{1/4} ϑ(γ)=γ1/4给了 ℓ 1 / 2 \ell^{1/2} 1/2惩罚)。

有效的最小化算法是基于分段次二次增长的二次逼近(PQSQ)。

Adaptive lasso

​ 自适应套索(adaptive lassuo)是邹某(2006)在线性回归中引入,Zhang和Lu(2007)用于比例风险回归

Prior lasso

​ Jiang等人在2016年将先验lasso引入到广义线性模型中,以纳入先验信息,如某些协变量的重要性。在先验lasso中,这些信息被总结为伪响应(称为先验响应),然后在通常的目标函数中加入一个附加的准则函数,带有lasso惩罚。

​ 在不丧失一般性的情况下,在线性回归中,新的目标函数可以写成
min ⁡ β ∈ R p { 1 N ∥ y − X β ∥ 2 2 + 1 N η ∥ y ^ p − X β ∥ 2 2 + λ ∥ β ∥ 1 } , \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+{\frac {1}{N}}\eta \left\|{\hat {y}}^{\mathrm {p} }-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{1}\right\}, βRpmin{N1y22+N1ηy^p22+λβ1},
等价于
min ⁡ β ∈ R p { 1 N ∥ y ~ − X β ∥ 2 2 + λ 1 + η ∥ β ∥ 1 } , \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|{\tilde {y}}-X\beta \right\|_{2}^{2}+{\frac {\lambda }{1+\eta }}\|\beta \|_{1}\right\}, βRpmin{N1y~22+1+ηλβ1},
其中 y ~ = ( y + η y ^ p ) / ( 1 + η ) \tilde {y}=(y+\eta {\hat {y}}^{\mathrm {p} })/(1+\eta ) y~=(y+ηy^p)/(1+η).

​ 在先验Lasso中,参数 η \eta η 被称为平衡参数 ,它平衡了数据与先验信息的相对重要性。 在极端情况 η = 0 \eta = 0 η=0下,先验Lasso被简化为Lasso。如果 η = ∞ \eta = \infty η=,先验Lasso将只依赖先验信息来拟合模型。此外,平衡参数还有另一个吸引人的解释:它从贝叶斯观点控制其先验分布的方差。

计算lasso解

​ Lasso的损失函数是不可微的,但从凸分析和优化理论等方面发展了各种技术来计算Lasso的解的路径。这些方法包括坐标下降法、次梯度法、最小角度回归法(LARS)和近端梯度法次梯度法 是对梯度下降法和随机梯度下降法等传统方法的自然推广,使目标函数在所有点上不可微。

​ LARS是一种与套索模型密切相关的方法,在许多情况下,它允许它们有效地匹配,尽管它可能不是在所有情况下都表现良好。LARS生成完整的解决方案路径。近端方法因其灵活性和性能而受到欢迎,是一个积极研究的领域。总之,方法的选择将取决于特定的套索变体、数据和可用资源。通常,近端方法效果较好。

正则化参数的选择

​ 正则化参数 λ \lambda λ 的选择是lasso的一个基本部分。一个好的值对lasso的性能至关重要,因为它控制收缩的强度和变量选择,适度可以提高预测的准确性和可解释性。

​ 但是,如果正则化太强,可能会忽略重要的变量,过度收缩系数,从而影响预测能力和推断能力。交叉验证 常用于寻找正则化参数。

​ 信息准则,如贝叶斯信息准则(BIC)和赤池信息准则(AIC) 可能比交叉验证更可取,因为它们的计算速度更快,并且在小样本中性能不稳定信息准则通过最大化模型的样本内精度,同时惩罚其有效参数/自由度来选择估计器的正则化参数。

​ Zou等人提出通过计算偏离0的参数的个数来测量有效自由度。该方法被Kaufman和Rosset和Janson等人认为是有缺陷的,因为当它被正则化参数更难惩罚时,一个模型的自由度可能会增加。作为一种替代方法,上面定义的相对简单性度量可以用来计算参数的有效数量对于套索,这个度量如下:
P ^ = ∑ i = 1 p ∣ β i − β 0 , i ∣ 1 p ∑ l ∣ b O L S , l − β 0 , l ∣ . \hat {\mathcal {P}}=\sum _{i=1}^{p}{\frac {|\beta _{i}-\beta _{0,i}|}{{\frac {1}{p}}\sum _{l}|b_{OLS,l}-\beta _{0,l}|}}. P^=i=1pp1lbOLS,lβ0,lβiβ0,i.
当正则化参数从无穷减到0时,它是从0到 p p p单调递增的。

应用

​ Lasso已被应用于经济和金融,并发现改善预测和选择有时被忽视的变量,例如在公司破产预测文献中,或高增长公司预测。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值