高维统计学习笔记1——LASSO和Oracle性质

本文探讨了在高维统计环境下使用极小化正则风险的方法来估计和检验参数的有效性,重点介绍了LASSO估计及其Oracle性质,并通过数学推导展示了其在预测误差上的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

高维统计学习笔记1——LASSO和Oracle性质

主要参考资料:Sara Van De Geer《Estimation and Testing Under Sparsity》

前言

当年Tibshirani提出LASSO的时候,未曾想到LASSO竟然成为了高维统计中一个非常重要的工具,这其中当然有一部分要归功于苏黎世联邦理工大学的美女教授Sara van de geer对LASSO理论的贡献。废话少说,开始学习。

1.高维统计的重要工具——极小化正则风险

当数据特征的数量 p p p远大于我们所观测的样本量 n n n时,我们称数据是高维的,如果把总体的特征看作参数 β \beta β,对参数进行估计和检验的一个有效方法是极小化正则风险。

Notation

损失函数 R : B → R , B ⊂ R p R:\mathcal{B}\rightarrow R, \mathcal{B}\subset\mathbb{R}^p R:BR,BRp.
目标参数 β 0 = arg ⁡ min ⁡ β ∈ B R ( β ) \beta^0=\arg\min_{\beta\in\mathcal{B}}R(\beta) β0=argminβBR(β).
经验损失函数 R n : B → R R_n:\mathcal{B}\rightarrow R Rn:BR, based on n data points X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn with n &lt; p n&lt;p n<p
惩罚 p e n : B → [ 0 , + ∞ ) pen:\mathcal{B}\rightarrow[0,+\infty) pen:B[0,+),实际上它是一个给定稀疏性后的惩罚,它对应着 R p \mathbb{R}^p Rp上的一个范数。

如何估计参数 β \beta β呢?我们考虑的极小化正则风险:
β ^ : = arg ⁡ min ⁡ β ∈ B { R n ( β ) + p e n ( β ) } \hat{\beta}:=\arg\min_{\beta\in\mathcal{B}}\{R_n(\beta)+pen(\beta)\} β^:=argβBmin{Rn(β)+pen(β)}Van de geer 这本书的目的就正是研究这个估计,希望能有在很高的概率下有下面这个不等式: R ( β ^ ) ≤ R ( β 0 ) + R e m a i n d e r , R(\hat{\beta})\leq R(\beta_0)+Remainder, R(β^)R(β0)+Remainder R e m a i n d e r Remainder Remainder是一个很小的数,它取决于 β 0 \beta_0 β0有多稀疏。

而她实际展示的结果是下面这个更一般的不等式: R ( β ^ ) ≤ R ( β ) + R e m a i n d e r ( β ) , ∀ β . R(\hat{\beta})\leq R(\beta)+Remainder(\beta),\forall\beta. R(β^)R(β)+Remainder(β)β.这里 R e m a i n d e r ( β ) Remainder(\beta) Remainder(β)取决于 β \beta β的非零项的数目,其实这就是一个sharp oracle inequality,而一个non-sharp oracle inequality有下面的形式: R ( β ^ ) ≤ R ( β 0 ) + ( 1 + η ) ( R ( β ) − R ( β 0 ) ) + R e m a i n d e r ( β ) , ∀ β . R(\hat{\beta})\leq R(\beta_0)+(1+\eta)(R(\beta)-R(\beta_0))+Remainder(\beta),\forall \beta. R(β^)R(β0)+(1+η)(R(β)R(β0))+Remainder(β),β. 这里 η &gt; 0 \eta&gt;0 η>0是某个很小的正常数。

2.线性模型和LASSO

Notation

∣ ∣ . ∣ ∣ n 2 = ∣ ∣ . ∣ ∣ 2 2 / n , ||.||_n^2=||.||_2^2/n, .n2=.22/n, β S , j = β j 1 { j ∈ S } , \beta_{S,j}=\beta_j1\{j\in S\}, βS,j=βj1{jS}, β S = ( β S , 1 , . . . , β S , p ) T , \beta_S=(\beta_{S,1},...,\beta_{S,p})^T, βS=(βS,1,...,βS,p)T, β − S = β S c . \beta_{-S}=\beta_{S^c}. βS=βSc.
我们考虑模型 Y = f 0 + ϵ . Y=f^0+\epsilon. Y=f0+ϵ.这里 ϵ \epsilon ϵ是一个期望为0的干扰, Y ∈ R n Y\in\mathbb{R}^n YRn。假设 f 0 = X β 0 f^0=X\beta^0 f0=Xβ0,那么这就是一个线性模型。假设 ϵ i \epsilon_i ϵi之间不相关且方差为 σ 2 \sigma^2 σ2 X n × p X_{n\times p} Xn×p是一个非随机的设计阵,这时我们注意到 E ∣ ∣ Y n e w − X β ^ ∣ ∣ n 2 = E ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + σ 2 . E|| Y_{new}-X\hat{\beta}||_n^2=E||X\beta_0-X\hat{\beta}||_n^2+\sigma^2. EYnewXβ^n2=EXβ0Xβ^n2+σ2.
显然,我们希望 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 = o p ( 1 ) || X\beta_0-X\hat{\beta}||_n^2=o_p(1) Xβ0Xβ^n2=op(1)

如果 n &gt; p n&gt;p n>p,最小二乘估计 β ^ L S \hat{\beta}^{LS} β^LS是对参数 β \beta β的一个合理的估计,我们很容易得到 E ∣ ∣ X β 0 − X β ^ L S ∣ ∣ n 2 = p n σ 2 , E||X\beta_0-X\hat{\beta}^{LS}||_n^2=\frac{p}{n}\sigma^2, EXβ0Xβ^LSn2=npσ2, p ≫ n p\gg n pn X X X行满秩时,有
E ∣ ∣ X β 0 − X β ^ L S ∣ ∣ n 2 = n n σ 2 = σ 2 = ̸ o ( 1 ) . E||X\beta_0-X\hat{\beta}^{LS}||_n^2=\frac{n}{n}\sigma^2=\sigma^2 =\not o(1). EXβ0Xβ^LSn2=nnσ2=σ2≠o(1).
因此在高维条件下最小二乘估计是不合适的。LASSO一个很好的性质是它能够产生稀疏的估计,这源于 L 1 L_1 L1约束的几何形状,这点想必大家都清楚,就不多说了。LASSO估计的定义是: β ^ = arg ⁡ min ⁡ β ∈ B { ∣ ∣ Y − X β ∣ ∣ n 2 + 2 λ ∣ ∣ β ∣ ∣ 1 } . \hat{\beta}=\arg\min_{\beta\in\mathcal{B}}\{||Y-X\beta||_n^2+2\lambda||\beta||_1\}. β^=argβBmin{YXβn2+2λβ1}.同样,我们去计算一下 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ||X\beta_0-X\hat{\beta}||_n^2 Xβ0Xβ^n2,我们希望它在高维的情况下依概率收敛到0,并且想知道速度有多快。

首先,由LASSO的定义显然有
∣ ∣ Y − X β ^ ∣ ∣ n 2 + 2 λ ∣ ∣ β ^ ∣ ∣ 1 ≤ ∣ ∣ Y − X β ∣ ∣ n 2 + 2 λ ∣ ∣ β ∣ ∣ 1 , ∀ β ||Y-X\hat{\beta}||_n^2+2\lambda|\hat{|\beta}||_1\leq||Y-X\beta||_n^2+2\lambda||\beta||_1,\forall \beta YXβ^n2+2λβ^1YXβn2+2λβ1,β做一点简单的计算可得 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ≤ ∣ ∣ X β 0 − X β ∣ ∣ n 2 + 2 ϵ T X ( β ^ − β ) n + 2 λ ( ∣ ∣ β ∣ ∣ 1 − ∣ ∣ β ^ ∣ ∣ 1 ) , ||X\beta^0 -X\hat{\beta}||_n^2\leq||X\beta^0-X\beta||_n^2+\frac{2\epsilon^TX(\hat{\beta}-\beta)}{n}+2\lambda(||\beta||_1-||\hat{\beta}||_1), Xβ0Xβ^n2Xβ0Xβn2+n2ϵTX(β^β)+2λ(β1β^1),为了去bound左边这个prediction error,我们需要bound后面三项,第一项暂且不用去管它,对第二项有
2 ϵ T X ( β ^ − β ) n ≤ 2 ∣ ∣ ϵ T X n ∣ ∣ ∞ ∣ ∣ β ^ − β ∣ ∣ 1 , \frac{2\epsilon^TX(\hat{\beta}-\beta)}{n}\leq2||\frac{\epsilon^TX}{n}||_{\infty}||\hat{\beta}-\beta||_1, n2ϵTX(β^β)2nϵTXβ^β1,我们不妨令集合
F = { w : 2 ∣ ∣ ϵ ( w ) T X n ∣ ∣ ∞ &lt; 2 λ 0 } , \mathcal{F}=\{w:2||\frac{\epsilon(w)^TX}{n}||_{\infty}&lt;2\lambda_0\}, F={w:2nϵ(w)TX<2λ0},如果 ϵ ∼ N n ( 0 , σ 2 I ) \epsilon\sim\mathcal{N}_n(0,\sigma^2I) ϵNn(0,σ2I),而且我们的数据阵经过了标准化,i.e., ∣ ∣ X ( j ) ∣ ∣ n 2 = 1 ||X^{(j)}||_n^2=1 X(j)n2=1,则 ϵ T X ( j ) / n ∼ N ( 0 , σ 2 n ) \epsilon^TX^{(j)}/n\sim\mathcal{N}(0,\frac{\sigma^2}{n}) ϵTX(j)/nN(0,nσ2),这时 P [ F c ] ≤ ∑ j = 1 p P [ ∣ ϵ T X ( j ) n ∣ ≥ λ 0 ] ≤ p e − n λ 0 2 2 σ 2 = e ln ⁡ ( p ) − n λ 0 2 2 σ 2 . \mathbb{P}[\mathcal{F}^c]\leq\sum_{j=1}^{p}\mathbb{P}[|\frac{\epsilon^TX^{(j)}}{n}|\geq\lambda_0]\leq pe^{-\frac{n\lambda_0^2}{2\sigma^2}}=e^{\ln(p)-\frac{n\lambda_0^2}{2\sigma^2}}. P[Fc]j=1pP[nϵTX(j)λ0]pe2σ2nλ02=eln(p)2σ2nλ02. λ 0 = σ 2 log ⁡ p + t 2 n \lambda_0=\sigma\sqrt{\frac{2\log p+t^2}{n}} λ0=σn2logp+t2 ,则有 P [ F ] ≥ 1 − e − t 2 / 2 \mathbb{P}[\mathcal{F}]\geq1-e^{-t^2/2} P[F]1et2/2,也就是说如果 λ 0 ≍ log ⁡ ( p ) n \lambda_0\asymp\sqrt{\frac{\log(p)}{n}} λ0nlog(p) ,那么 P [ F ] ≈ 1 , \mathbb{P}[\mathcal{F}]\approx1, P[F]1, ∣ ∣ ϵ ( w ) T X n ∣ ∣ ∞ = O p ( log ⁡ ( p ) n ) . ||\frac{\epsilon(w)^TX}{n}||_{\infty}=O_p(\sqrt{\frac{\log(p)}{n}}). nϵ(w)TX=Op(nlog(p) ).
所以在集合 F \mathcal{F} F上,
∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ≤ ∣ ∣ X β 0 − X β ∣ ∣ n 2 + 2 λ 0 ∣ ∣ β ^ − β ∣ ∣ 1 + 2 λ ( ∣ ∣ β ∣ ∣ 1 − ∣ ∣ β ^ ∣ ∣ 1 ) , ||X\beta^0 -X\hat{\beta}||_n^2\leq||X\beta^0-X\beta||_n^2+2\lambda_0||\hat{\beta}-\beta||_1+2\lambda(||\beta||_1-||\hat{\beta}||_1), Xβ0Xβ^n2Xβ0Xβn2+2λ0β^β1+2λ(β1β^1), ( 1 ) (1) (1) β = β 0 \beta=\beta^0 β=β0,则有
(2) 0.5 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + ( λ − λ 0 ) ∣ ∣ β ^ ∣ ∣ 1 ≤ ( λ + λ 0 ) ∣ ∣ β 0 ∣ ∣ 1 , 0.5||X\beta^0 -X\hat{\beta}||_n^2+(\lambda-\lambda_0)||\hat{\beta}||_1\leq(\lambda+\lambda_0)||\beta^0||_1, \tag2 0.5Xβ0Xβ^n2+(λλ0)β^1(λ+λ0)β01,(2)如果取 λ 0 ≤ 0.5 λ \lambda_0\leq0.5\lambda λ00.5λ,则,
(3) ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + λ ∣ ∣ β ^ ∣ ∣ 1 ≤ 3 λ ∣ ∣ β 0 ∣ ∣ 1 . ||X\beta^0 -X\hat{\beta}||_n^2+\lambda||\hat{\beta}||_1\leq3\lambda||\beta^0||_1. \tag3 Xβ0Xβ^n2+λβ^13λβ01.(3)所以我们关心的为问题变成了 ∣ ∣ β 0 ∣ ∣ 1 ||\beta^0||_1 β01到底有多大。这时,我们需要在 ∣ ∣ β 0 ∣ ∣ 1 ||\beta^0||_1 β01 β 0 T Σ ^ β 0 {\beta^0}^T\hat{\Sigma}\beta^0 β0TΣ^β0之间建立起联系,记 Σ ^ = X T X / n \hat{\Sigma}=X^TX/n Σ^=XTX/nSara van de geer(2007) 那篇文章里提出了Compatibility constant,它的定义是,对一个常数 L ≥ 1 L\geq1 L1和指标集 S S S,

ϕ ^ 2 ( L , S ) : = min ⁡ { ∣ S ∣ ∣ ∣ X β S − X β − S ∣ ∣ n 2 : ∣ ∣ β S ∣ ∣ 1 = 1 , ∣ ∣ β − S ∣ ∣ 1 ≤ L } , \hat{\phi}^2(L,S):=\min\{|S|||X\beta_S-X\beta_{-S}||_n^2:||\beta_S||_1=1,||\beta_{-S}||_1\leq L\}, ϕ^2(L,S):=min{SXβSXβSn2:βS1=1,βS1L}, L L L一般被称作“拉伸因子”,直观上看,C-constant其实就是一个凸包到另一个拉伸后的凸包的距离。对任意 β ∗ \beta^* β,取 S ∗ = { j : β j ∗ = ̸ 0 } , δ ∗ = β ∗ ∣ ∣ β ∗ ∣ ∣ 1 S^*=\{j:\beta^*_j=\not0\},\delta^*=\frac{\beta^*}{||\beta^*||_1} S={j:βj≠0},δ=β1β,那么显然有 ∣ ∣ β ∗ ∣ ∣ 1 2 ≤ ∣ S ∗ ∣ ∣ ∣ X β ∗ ∣ ∣ n 2 ϕ ^ 2 ( 1 , S ∗ ) . ||\beta^*||_1^2\leq\frac{|S^*|||X\beta^*||_n^2}{\hat{\phi}^2(1,S^*)}. β12ϕ^2(1,S)SXβn2.当然,这个 S ∗ S^* S通常是不知道的,如果考虑的是任意集合 S S S,显然我们需要再添加一个条件 ∣ ∣ β − S ∗ ∣ ∣ 1 ≤ 3 ∣ ∣ β S ∗ ∣ ∣ 1 ||\beta_{-S}^*||_1\leq3||\beta_{S}^*||_1 βS13βS1(这里的3我给的相当随意),这样只需要令 δ ∗ = β ∗ ∣ ∣ β S ∗ ∣ ∣ 1 \delta^*=\frac{\beta^*}{||\beta_S^*||_1} δ=βS1β,就有 ∣ ∣ β S ∗ ∣ ∣ 1 2 ≤ ∣ S ∣ ∣ ∣ X β S ∗ − X β − S ∗ ∣ ∣ n 2 ϕ ^ 2 ( 3 , S ) . ||\beta_{S}^*||_1^2\leq\frac{|S|||X\beta_S^*-X\beta_{-S}^*||_n^2}{\hat{\phi}^2(3,S)}. βS12ϕ^2(3,S)SXβSXβSn2.有了C-Constant的概念,我们取 S 0 = { j : β j 0 = ̸ 0 } S^0=\{j:\beta^0_j=\not0\} S0={j:βj0≠0},对(1)做一点简单的变换,在 λ &gt; 2 λ 0 \lambda&gt;2\lambda_0 λ>2λ0的条件下可得, (4) ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + λ ∣ ∣ β ^ − S 0 ∣ ∣ 1 ≤ 3 λ ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 , ||X\beta^0 -X\hat{\beta}||_n^2+\lambda||\hat{\beta}_{-S^0}||_1\leq3\lambda||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1,\tag4 Xβ0Xβ^n2+λβ^S013λβ^S0βS001,(4) δ = β ^ − β 0 ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 \delta=\frac{\hat{\beta}-\beta^0}{||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1} δ=β^S0βS001β^β0,可以得到 ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 2 ≤ ∣ S 0 ∣ ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 ϕ ^ 2 ( 3 , S 0 ) . ||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1^2\leq\frac{|S^0|||X\beta^0 -X\hat{\beta}||_n^2}{\hat{\phi}^2(3,S^0)}. β^S0βS0012ϕ^2(3,S0)S0Xβ0Xβ^n2.由基本不等式,
(5) 4 λ ∣ ∣ β ^ S 0 − β S 0 0 ∣ ∣ 1 ≤ 8 λ 2 ∣ S 0 ∣ ϕ ^ 2 ( 3 , S 0 ) + 0.5 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 , 4\lambda||\hat{\beta}_{S^0}-\beta^0_{S^0}||_1\leq\frac{8\lambda^2|S^0|}{\hat{\phi}^2(3,S^0)}+0.5||X\beta^0 -X\hat{\beta}||_n^2,\tag5 4λβ^S0βS001ϕ^2(3,S0)8λ2S0+0.5Xβ0Xβ^n2,(5)结合(4),(5),我们显然有
(6) ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 + 2 λ ∣ ∣ β ^ − β 0 ∣ ∣ 1 ≤ 16 λ 2 ∣ S 0 ∣ ϕ ^ 2 ( 3 , S 0 ) . ||X\beta^0 -X\hat{\beta}||_n^2+2\lambda||\hat{\beta}-\beta^0||_1\leq\frac{16\lambda^2|S^0|}{\hat{\phi}^2(3,S^0)}.\tag6 Xβ0Xβ^n2+2λβ^β01ϕ^2(3,S0)16λ2S0.(6)
这就是所谓的oracle不等式,注意到如果C-Constant远离0,且 λ ≍ log ⁡ p n \lambda\asymp\sqrt{\frac{\log p}{n}} λnlogp 我们有 ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 = O p ( ∣ S 0 ∣ log ⁡ p n ) . ||X\beta^0 -X\hat{\beta}||_n^2=O_p(\frac{|S^0|\log p}{n}). Xβ0Xβ^n2=Op(nS0logp).

我这里只是给出了对Oracle的一个直观感受,而书中用了一些特别的技巧,也给出了一个更加严格而且一般的定理:

定理2.2(Oracle)

假设 ∣ ∣ X T ϵ / n ∣ ∣ ∞ ≤ λ 0 , 0 ≤ δ &lt; 1 ||X^T\epsilon/n||_\infty\leq\lambda^0,0\leq\delta&lt;1 XTϵ/nλ0,0δ<1 λ &gt; λ 0 \lambda&gt;\lambda_0 λ>λ0,令 λ − = λ − λ 0 , λ − = λ + λ 0 + δ λ − , L = λ − ( 1 − δ ) λ − , \lambda_{-}=\lambda-\lambda_0,\lambda^-=\lambda+\lambda_0+\delta\lambda_-,L=\frac{\lambda^-}{(1-\delta)\lambda_-}, λ=λλ0,λ=λ+λ0+δλ,L=(1δ)λλ,那么我们有
2 δ λ − ∣ ∣ β ^ − β ∣ ∣ 1 + ∣ ∣ X β 0 − X β ^ ∣ ∣ n 2 2\delta\lambda_-||\hat{\beta}-\beta||_1+||X\beta^0 -X\hat{\beta}||_n^2 2δλβ^β1+Xβ0Xβ^n2 ≤ min ⁡ β ∈ R p min ⁡ S ⊂ { 1 , . . . , p } { 2 δ λ − ∣ ∣ β − β 0 ∣ ∣ 1 + ∣ ∣ X β 0 − X β ∣ ∣ n 2 \leq\min_{\beta\in\mathbb{R}^p}\min_{S\subset\{1,...,p\}}\{2\delta\lambda_-||\beta-\beta^0||_1+||X\beta^0 -X\beta||_n^2 βRpminS{1,...,p}min{2δλββ01+Xβ0Xβn2 + λ − 2 ∣ S ∣ ϕ ^ 2 ( L , S ) + 4 λ ∣ ∣ β − S ∣ ∣ 1 } . +\frac{{\lambda^-}^2|S|}{\hat{\phi}^2(L,S)}+4\lambda||\beta_{-S}||_1\}. +ϕ^2(L,S)λ2S+4λβS1}.如果 ( β ∗ , S ∗ ) (\beta^*,S^*) (β,S)是不等式右边的一个最小元,那么我们就称 ( β ∗ , S ∗ ) (\beta^*,S^*) (β,S)是一个Oracle。显然,取 β = β 0 \beta=\beta^0 β=β0,可以得到我们之前得出的上面那个结果。

参考资料

[1] Sara van de geer, Estimation and Testing Under Sparsity, 2016

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值