lasso 的理论证明-约束lasso的估计误差界

lasso 的理论证明

我们将陆续对lasso的oracle性质进行证明,本篇说明的是约束型lasso l 2 l_2 l2 误差界的证明。这些证明来源于对教材或论文的归纳。

lasso相关证明:

考虑线性回归模型:
y = X β ∗ + w . y=X\beta^{*}+w. y=Xβ+w.
对以下两种形式的lasso进行讨论

  • 约束形式的lasso:
    y = X β ∗ + w , s . t . ∥ β ∥ 1 ≤ R . y=X\beta^{*}+w, s.t. \|\beta\|_{1} \leq R. y=Xβ+w,s.t.β1R.
  • 拉格朗日形式的lasso:
    1 2 N ∥ y − X β ∥ 2 + λ ∥ β ∥ 1 . \frac{1}{2N}\|y-X\beta\|^2+\lambda\|\beta\|_{1}. 2N1yXβ2+λβ1.
    :当 R R R λ \lambda λ 满足一定关系时,上述两种形式等价。(证明思路是通过拉格朗日函数,利用KKT条件求解 β \beta β

lasso l 2 l_2 l2 误差界的证明

定理1:对约束形式的lasso,其最优解 β ^ \widehat{\beta} β 满足:
∥ β ^ − β ∗ ∥ 2 ≤ 4 γ k N ∥ X T w N ∥ ∞ \left\|\widehat{\beta}-\beta^{*}\right\|_{2} \leq \frac{4}{\gamma} \sqrt{\frac{k}{N}}\left\|\frac{\mathbf{X}^{T} \mathbf{w}}{\sqrt{N}}\right\|_{\infty} β β2γ4Nk N XTw
证明
我们将证明分成三步:

1. 建立基本不等式
由于 β ^ \widehat{\beta} β 为最优解,因此: ∥ y − X β ^ ∥ 2 2 ≤ ∥ y − X β ∗ ∥ 2 2 \|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} \leq\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2} yXβ 22yXβ22
进一步的:
∥ y − X β ^ ∥ 2 2 − ∥ y − X β ∗ ∥ 2 2 ≤ − 2 y T X β ^ + β ^ T X T X β ^ + 2 y X β ∗ − β ∗ T X T X β ∗ . \|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} -\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2} \leq -2y^{T}X\widehat{\beta}+\widehat{\beta}^{T}X^{T}X\widehat{\beta}+2yX\beta^{*}-\beta^{*T}X^{T}X\beta^{*}. yXβ 22yXβ222yTXβ +β TXTXβ +2yXββTXTXβ.
又:
∥ X β ^ − X β ∗ ∥ 2 2 = β ^ T X T X β ^ + β ∗ T X T X β ∗ − β ∗ T X T X β ^ − β ^ T X T X β ∗ . \|\mathbf{X} \widehat{\beta}-\mathbf{X} \beta^{*}\|_{2}^{2} = \widehat{\beta}^{T}X^{T}X\widehat{\beta}+\beta^{*T}X^{T}X\beta^{*}-\beta^{*T}X^{T}X\widehat{\beta}-\widehat{\beta}^TX^{T}X\beta^{*}. Xβ Xβ22=β TXTXβ +βTXTXββTXTXβ β TXTXβ.
v = β ^ − β ∗ v=\widehat{\beta}-\beta^{*} v=β β,将以上两个式子合并:
∥ y − X β ^ ∥ 2 2 − ∥ y − X β ∗ ∥ 2 2 = ∥ X v ∥ 2 − 2 w T X v ≤ 0. \|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} -\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2} = \|\mathbf{X} v\|^2-2w^TXv \leq 0. yXβ 22yXβ22=Xv22wTXv0.
得基本不等式:
∥ X v ∥ 2 2 2 N ≤ w T X v N . \frac{\|\mathbf{X} v\|_{2}^{2}}{2 N} \leq \frac{\mathbf{w}^{T} \mathbf{X} v}{N}. 2NXv22NwTXv.
利用H ̈older’s inequality:
∥ X v ∥ 2 2 2 N ≤ 1 N ∣ w T X v ∣ ≤ 1 N ∥ X T w ∥ ∞ ∥ v ∥ 1 \frac{\|\mathbf{X} v\|_{2}^{2}}{2 N} \leq \frac{1}{N}\left|\mathbf{w}^{T} \mathbf{X} v\right| \leq \frac{1}{N}\left\|\mathbf{X}^{T} \mathbf{w}\right\|_{\infty}\|v\|_{1} 2NXv22N1wTXvN1XTwv1

2. 建立 ∥ v ∥ 1 \|v\|_{1} v1 ∥ v ∥ 2 \|v\|_{2} v2 的联系
∥ v ∥ 1 = ∥ v S ∥ 1 + ∥ v S c ∥ 1 ≤ 2 ∥ v S ∥ 1 ≤ 2 k ∥ v ∥ 2 \|v\|_{1}=\left\|v_{S}\right\|_{1}+\left\|v_{S^{c}}\right\|_{1} \leq 2\left\|v_{S}\right\|_{1} \leq 2 \sqrt{k}\|v\|_{2} v1=vS1+vSc12vS12k v2
:最后一个不等号的证明是根据Cauchy–Schwarz inequality:
∥ v S ∥ 1 2 = ( ∑ i = 1 k v i ) 2 ≤ ( ∑ i = 1 n 1 2 ) ( ∑ i = 1 n v i 2 ) = k ∥ v ∥ 2 2 . \left\|v_{S}\right\|_{1}^2 = \left(\sum_{i=1}^{k} v_{i}\right)^{2} \leq\left(\sum_{i=1}^{n} 1^{2}\right)\left(\sum_{i=1}^{n} v_{i}^{2}\right)=k\|v\|_{2}^2. vS12=(i=1kvi)2(i=1n12)(i=1nvi2)=kv22.
其中, k k k β ∗ \beta^* β 的支撑。

:在lasso情况下, ∥ v S ∥ 1 \left\|v_{S}\right\|_{1} vS1 ∥ v S c ∥ 1 \left\|v_{S^{c}}\right\|_{1} vSc1 还有一个更为准确的关系式,这将在拉格朗日形式lasso的估计误差界的证明中说明。

3. 建立 ∥ X v ∥ 2 2 \|\mathbf{X} v\|_{2}^{2} Xv22 ∥ v ∥ 2 \|v\|_{2} v2 的联系

这里,需用受限特征值条件,需要明白的是,为什么该条件会被建立。首先,我们需要目标函数的强凸性来保证目标函数值的误差界与估计误差界相关;但lasso的目标函数并不满足强凸性(高维),于是可放宽强凸的定义,即目标函数满足强凸性的充分条件是模型矩阵的受限特征值条件:
1 N v T X T X v ∥ v ∥ 2 2 ≥ γ . \frac{\frac{1}{N} v^{T} \mathbf{X}^{T} \mathbf{X} v}{\|v\|_{2}^{2}} \geq \gamma. v22N1vTXTXvγ.
即:
1 N ∥ X v ∥ 2 2 ≥ γ ∥ v ∥ 2 2 . \frac{1}{N}\|\mathbf{X} {v}\|_{2}^{2} \geq \gamma\|{v}\|_{2}^{2}. N1Xv22γv22.
将上述步骤的结果合并,整理后即得界。

参考文献: Trevor Hastie, Robert Tibshirani and Martin Wainwright: Statistical Learning with Sparsity: The Lasso and Generalizations.

下一篇拉格朗日形式的lasso l 2 l_2 l2 误差界的证明

喜欢文章记得点赞!点赞!点赞!当然,作者水平有限,如有错误,欢迎指出!

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值