lasso 的理论证明-约束lasso的估计误差界

最新推荐文章于 2022-11-28 13:14:27 发布

烟雨霄灯

最新推荐文章于 2022-11-28 13:14:27 发布

阅读量1.3k

点赞数 5

分类专栏： lasso 文章标签：机器学习矩阵

本文链接：https://blog.csdn.net/a13278450/article/details/119185450

版权

lasso 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

lasso 的理论证明

我们将陆续对lasso的oracle性质进行证明，本篇说明的是约束型lasso $l_2$ 误差界的证明。这些证明来源于对教材或论文的归纳。

lasso相关证明：

考虑线性回归模型：
$y=X\beta^{*}+w.$
对以下两种形式的lasso进行讨论

约束形式的lasso：
$y=X\beta^{*}+w, s.t. \|\beta\|_{1} \leq R.$
拉格朗日形式的lasso:
$\frac{1}{2N}\|y-X\beta\|^2+\lambda\|\beta\|_{1}.$
注：当 $R$ 与 $\lambda$ 满足一定关系时，上述两种形式等价。（证明思路是通过拉格朗日函数，利用KKT条件求解 $\beta$ ）

lasso $l_2$ 误差界的证明

定理1：对约束形式的lasso，其最优解 $\widehat{\beta}$ 满足：
$\left\|\widehat{\beta}-\beta^{*}\right\|_{2} \leq \frac{4}{\gamma} \sqrt{\frac{k}{N}}\left\|\frac{\mathbf{X}^{T} \mathbf{w}}{\sqrt{N}}\right\|_{\infty}$
证明：
我们将证明分成三步：

1. 建立基本不等式
由于 $\widehat{\beta}$ 为最优解，因此： $\|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} \leq\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2}$
进一步的：
$\|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} -\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2} \leq -2y^{T}X\widehat{\beta}+\widehat{\beta}^{T}X^{T}X\widehat{\beta}+2yX\beta^{*}-\beta^{*T}X^{T}X\beta^{*}.$
又：
$\|\mathbf{X} \widehat{\beta}-\mathbf{X} \beta^{*}\|_{2}^{2} = \widehat{\beta}^{T}X^{T}X\widehat{\beta}+\beta^{*T}X^{T}X\beta^{*}-\beta^{*T}X^{T}X\widehat{\beta}-\widehat{\beta}^TX^{T}X\beta^{*}.$
令 $v=\widehat{\beta}-\beta^{*}$ ，将以上两个式子合并：
$\|\mathbf{y}-\mathbf{X} \widehat{\beta}\|_{2}^{2} -\left\|\mathbf{y}-\mathbf{X} \beta^{*}\right\|_{2}^{2} = \|\mathbf{X} v\|^2-2w^TXv \leq 0.$
得基本不等式：
$\frac{\|\mathbf{X} v\|_{2}^{2}}{2 N} \leq \frac{\mathbf{w}^{T} \mathbf{X} v}{N}.$
利用H ̈older’s inequality：
$\frac{\|\mathbf{X} v\|_{2}^{2}}{2 N} \leq \frac{1}{N}\left|\mathbf{w}^{T} \mathbf{X} v\right| \leq \frac{1}{N}\left\|\mathbf{X}^{T} \mathbf{w}\right\|_{\infty}\|v\|_{1}$

2. 建立 $v\|_{1}$ 与 $v\|_{2}$ 的联系
$\|v\|_{1}=\left\|v_{S}\right\|_{1}+\left\|v_{S^{c}}\right\|_{1} \leq 2\left\|v_{S}\right\|_{1} \leq 2 \sqrt{k}\|v\|_{2}$
注：最后一个不等号的证明是根据Cauchy–Schwarz inequality：
$\left\|v_{S}\right\|_{1}^2 = \left(\sum_{i=1}^{k} v_{i}\right)^{2} \leq\left(\sum_{i=1}^{n} 1^{2}\right)\left(\sum_{i=1}^{n} v_{i}^{2}\right)=k\|v\|_{2}^2.$
其中， $k$ 是 $\beta^*$ 的支撑。

注：在lasso情况下， $\left\|v_{S}\right\|_{1}$ 与 $\left\|v_{S^{c}}\right\|_{1}$ 还有一个更为准确的关系式，这将在拉格朗日形式lasso的估计误差界的证明中说明。

3. 建立 $\|\mathbf{X} v\|_{2}^{2}$ 与 $v\|_{2}$ 的联系

这里，需用受限特征值条件，需要明白的是，为什么该条件会被建立。首先，我们需要目标函数的强凸性来保证目标函数值的误差界与估计误差界相关；但lasso的目标函数并不满足强凸性（高维），于是可放宽强凸的定义，即目标函数满足强凸性的充分条件是模型矩阵的受限特征值条件：
$\frac{\frac{1}{N} v^{T} \mathbf{X}^{T} \mathbf{X} v}{\|v\|_{2}^{2}} \geq \gamma.$
即：
$\frac{1}{N}\|\mathbf{X} {v}\|_{2}^{2} \geq \gamma\|{v}\|_{2}^{2}.$
将上述步骤的结果合并，整理后即得界。

参考文献： Trevor Hastie, Robert Tibshirani and Martin Wainwright: Statistical Learning with Sparsity: The Lasso and Generalizations.

下一篇：拉格朗日形式的lasso $l_2$ 误差界的证明

喜欢文章记得点赞！点赞！点赞！当然，作者水平有限，如有错误，欢迎指出！

烟雨霄灯

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
lasso 的理论证明-约束lasso的估计误差界

lasso 的理论证明我们将陆续对lasso的oracle性质进行证明，本篇说明的是约束型lasso l2l_2l2 误差界的证明。这些证明来源于对教材或论文的归纳。考虑线性回归模型：y=Xβ∗+w.y=X\beta^{*}+w.y=Xβ∗+w.对以下两种形式的lasso进行讨论约束形式的lasso：y=Xβ∗+w,s.t.∥β∥1≤R.y=X\beta^{*}+w, s.t. \|\beta\|_{1} \leq R.y=Xβ∗+w,s.t.∥β∥1≤R.拉格朗日形式的lasso:1
复制链接

扫一扫