lasso 的理论证明
我们将陆续对lasso的oracle性质进行证明,本篇说明的是约束型lasso l 2 l_2 l2 误差界的证明。这些证明来源于对教材或论文的归纳。
lasso相关证明:
考虑线性回归模型:
y
=
X
β
∗
+
w
.
y=X\beta^{*}+w.
y=Xβ∗+w.
对以下两种形式的lasso进行讨论
- 约束形式的lasso:
y = X β ∗ + w , s . t . ∥ β ∥ 1 ≤ R . y=X\beta^{*}+w, s.t. \|\beta\|_{1} \leq R. y=Xβ∗+w,s.t.∥β∥1≤R. - 拉格朗日形式的lasso:
1 2 N ∥ y − X β ∥ 2 + λ ∥ β ∥ 1 . \frac{1}{2N}\|y-X\beta\|^2+\lambda\|\beta\|_{1}. 2N1∥y−Xβ∥2+λ∥β∥1.
注:当 R R R 与 λ \lambda λ 满足一定关系时,上述两种形式等价。(证明思路是通过拉格朗日函数,利用KKT条件求解 β \beta β)
lasso l 2 l_2 l2 误差界的证明
定理1:对约束形式的lasso,其最优解
β
^
\widehat{\beta}
β
满足:
∥
β
^
−
β
∗
∥
2
≤
4
γ
k
N
∥
X
T
w
N
∥
∞
\left\|\widehat{\beta}-\beta^{*}\right\|_{2} \leq \frac{4}{\gamma} \sqrt{\frac{k}{N}}\left\|\frac{\mathbf{X}^{T} \mathbf{w}}{\sqrt{N}}\right\|_{\infty}
∥∥∥β
−β∗∥∥∥2≤γ4Nk∥∥∥∥NXTw∥∥∥∥∞
证明:
我们将证明分成三步:
1. 建立基本不等式
由于
β
^
\widehat{\beta}
β
为最优解,因此:
∥
y
−
X
β
^
∥
2
2
≤
∥
y
−
X
β
∗
∥
2
2
\|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} \leq\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2}
∥y−Xβ
∥22≤∥y−Xβ∗∥22
进一步的:
∥
y
−
X
β
^
∥
2
2
−
∥
y
−
X
β
∗
∥
2
2
≤
−
2
y
T
X
β
^
+
β
^
T
X
T
X
β
^
+
2
y
X
β
∗
−
β
∗
T
X
T
X
β
∗
.
\|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} -\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2} \leq -2y^{T}X\widehat{\beta}+\widehat{\beta}^{T}X^{T}X\widehat{\beta}+2yX\beta^{*}-\beta^{*T}X^{T}X\beta^{*}.
∥y−Xβ
∥22−∥y−Xβ∗∥22≤−2yTXβ
+β
TXTXβ
+2yXβ∗−β∗TXTXβ∗.
又:
∥
X
β
^
−
X
β
∗
∥
2
2
=
β
^
T
X
T
X
β
^
+
β
∗
T
X
T
X
β
∗
−
β
∗
T
X
T
X
β
^
−
β
^
T
X
T
X
β
∗
.
\|\mathbf{X} \widehat{\beta}-\mathbf{X} \beta^{*}\|_{2}^{2} = \widehat{\beta}^{T}X^{T}X\widehat{\beta}+\beta^{*T}X^{T}X\beta^{*}-\beta^{*T}X^{T}X\widehat{\beta}-\widehat{\beta}^TX^{T}X\beta^{*}.
∥Xβ
−Xβ∗∥22=β
TXTXβ
+β∗TXTXβ∗−β∗TXTXβ
−β
TXTXβ∗.
令
v
=
β
^
−
β
∗
v=\widehat{\beta}-\beta^{*}
v=β
−β∗,将以上两个式子合并:
∥
y
−
X
β
^
∥
2
2
−
∥
y
−
X
β
∗
∥
2
2
=
∥
X
v
∥
2
−
2
w
T
X
v
≤
0.
\|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} -\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2} = \|\mathbf{X} v\|^2-2w^TXv \leq 0.
∥y−Xβ
∥22−∥y−Xβ∗∥22=∥Xv∥2−2wTXv≤0.
得基本不等式:
∥
X
v
∥
2
2
2
N
≤
w
T
X
v
N
.
\frac{\|\mathbf{X} v\|_{2}^{2}}{2 N} \leq \frac{\mathbf{w}^{T} \mathbf{X} v}{N}.
2N∥Xv∥22≤NwTXv.
利用H ̈older’s inequality:
∥
X
v
∥
2
2
2
N
≤
1
N
∣
w
T
X
v
∣
≤
1
N
∥
X
T
w
∥
∞
∥
v
∥
1
\frac{\|\mathbf{X} v\|_{2}^{2}}{2 N} \leq \frac{1}{N}\left|\mathbf{w}^{T} \mathbf{X} v\right| \leq \frac{1}{N}\left\|\mathbf{X}^{T} \mathbf{w}\right\|_{\infty}\|v\|_{1}
2N∥Xv∥22≤N1∣∣wTXv∣∣≤N1∥∥XTw∥∥∞∥v∥1
2. 建立
∥
v
∥
1
\|v\|_{1}
∥v∥1 与
∥
v
∥
2
\|v\|_{2}
∥v∥2 的联系
∥
v
∥
1
=
∥
v
S
∥
1
+
∥
v
S
c
∥
1
≤
2
∥
v
S
∥
1
≤
2
k
∥
v
∥
2
\|v\|_{1}=\left\|v_{S}\right\|_{1}+\left\|v_{S^{c}}\right\|_{1} \leq 2\left\|v_{S}\right\|_{1} \leq 2 \sqrt{k}\|v\|_{2}
∥v∥1=∥vS∥1+∥vSc∥1≤2∥vS∥1≤2k∥v∥2
注:最后一个不等号的证明是根据Cauchy–Schwarz inequality:
∥
v
S
∥
1
2
=
(
∑
i
=
1
k
v
i
)
2
≤
(
∑
i
=
1
n
1
2
)
(
∑
i
=
1
n
v
i
2
)
=
k
∥
v
∥
2
2
.
\left\|v_{S}\right\|_{1}^2 = \left(\sum_{i=1}^{k} v_{i}\right)^{2} \leq\left(\sum_{i=1}^{n} 1^{2}\right)\left(\sum_{i=1}^{n} v_{i}^{2}\right)=k\|v\|_{2}^2.
∥vS∥12=(i=1∑kvi)2≤(i=1∑n12)(i=1∑nvi2)=k∥v∥22.
其中,
k
k
k 是
β
∗
\beta^*
β∗ 的支撑。
注:在lasso情况下, ∥ v S ∥ 1 \left\|v_{S}\right\|_{1} ∥vS∥1 与 ∥ v S c ∥ 1 \left\|v_{S^{c}}\right\|_{1} ∥vSc∥1 还有一个更为准确的关系式,这将在拉格朗日形式lasso的估计误差界的证明中说明。
3. 建立 ∥ X v ∥ 2 2 \|\mathbf{X} v\|_{2}^{2} ∥Xv∥22 与 ∥ v ∥ 2 \|v\|_{2} ∥v∥2 的联系
这里,需用受限特征值条件,需要明白的是,为什么该条件会被建立。首先,我们需要目标函数的强凸性来保证目标函数值的误差界与估计误差界相关;但lasso的目标函数并不满足强凸性(高维),于是可放宽强凸的定义,即目标函数满足强凸性的充分条件是模型矩阵的受限特征值条件:
1
N
v
T
X
T
X
v
∥
v
∥
2
2
≥
γ
.
\frac{\frac{1}{N} v^{T} \mathbf{X}^{T} \mathbf{X} v}{\|v\|_{2}^{2}} \geq \gamma.
∥v∥22N1vTXTXv≥γ.
即:
1
N
∥
X
v
∥
2
2
≥
γ
∥
v
∥
2
2
.
\frac{1}{N}\|\mathbf{X} {v}\|_{2}^{2} \geq \gamma\|{v}\|_{2}^{2}.
N1∥Xv∥22≥γ∥v∥22.
将上述步骤的结果合并,整理后即得界。
参考文献: Trevor Hastie, Robert Tibshirani and Martin Wainwright: Statistical Learning with Sparsity: The Lasso and Generalizations.
下一篇:拉格朗日形式的lasso l 2 l_2 l2 误差界的证明
喜欢文章记得点赞!点赞!点赞!当然,作者水平有限,如有错误,欢迎指出!