高维统计学习笔记2——The Square Root Lasso

最新推荐文章于 2024-07-07 17:05:10 发布

qq_37353305

最新推荐文章于 2024-07-07 17:05:10 发布

阅读量1.3k

点赞数 1

分类专栏：学习笔记文章标签：高维统计 LASSO

本文链接：https://blog.csdn.net/qq_37353305/article/details/89053822

版权

学习笔记专栏收录该内容

9 篇文章 2 订阅

订阅专栏

高维统计学习笔记2——The Square Root Lasso

主要参考资料：Sara van de geer 《Estimation and Testing Under Sparsity》.
学习笔记1，https://blog.csdn.net/qq_37353305/article/details/89003023

前言

本来想直奔通过LASSO进行Inference的课题，但是Square Root Lasso将会在后面用到，而且它自有存在的道理和优势，借Square Root Lasso（后面简称SR LASSO）也刚好可以对上一节所讲的Oracle性质练练手。

SR LASSO

Motivation:上一节我们讲LASSO的时候，默认 $\epsilon\sim\mathcal{N}_n(0,\sigma^2I)$ ，而且 $\sigma$ 是已知的，所以我们可以选择合适的参数 $\lambda$ ，使得在很高的概率下 $||X^T\epsilon/n||_\infty<\lambda_0$ ，现在的问题是如果 $\sigma$ 不知道的话怎么办呢？为了避免这个问题，Belloni(2011)提出了SR LASSO。

Belloni的想法是，既然我不知道 $\sigma$ ，那么我就同时对 $\sigma$ 进行估计： $\left(\hat{\beta}, \hat{\sigma}^{2}\right)=\arg \min _{\beta \in \mathbb{R}^{p}, \sigma^{2}>0}\left\{\frac{\|Y-X \beta\|_{n}^{2}}{\sigma}+\sigma+2 \lambda_{}\|\beta\|_{1}\right\}.\tag1$ 右边那一项对 $\sigma$ 求导等于0可以得到 $\hat{\sigma}^2=||Y-X\hat{\beta}||_n^2=||\hat\epsilon||_n^2,$ 将它代入(1)立即得到SR LASSO的形式
$\hat{\beta} :=\arg \min _{\beta \in \mathbb{R}^{p}}\left\{\|Y-X \beta\|_{n}+\lambda_{}\|\beta\|_{1}\right\}.$ 现在我们用同样的方法来研究它的Oracle性质，由KKT条件，
$\frac{X^{T}(Y-X \hat{\beta}) / n}{\|Y-X \hat{\beta}\|_{n}}=\lambda_{} \hat{z}，$
这里 $\hat{z}^T\hat{\beta}=||\hat\beta||_1,||\hat{z}||_\infty\leq1$ 。在左右两边同时乘上 $(\beta-\hat{\beta})$ ，在通过一点简单的运算有
$||X(\beta_0-\hat{\beta})||_n^2\leq||X(\beta-\beta_0)||_n^2+\frac{(\hat{\beta}-\beta)^TX^T\epsilon}{n}+\lambda||\hat{\epsilon}||_n(||\beta||_1-||\hat{\beta}||_1),$ 右边后两项我们可以写成下面这个样子，
$||\epsilon||_n(\frac{(\hat{\beta}-\beta)^TX^T\epsilon}{n||\epsilon||_n}+\lambda\frac{||\hat{\epsilon}||_n}{||\epsilon||_n}(||\beta||_1-||\hat{\beta}||_1))$ 这样我们去bound $||\frac{X^T\epsilon}{n||\epsilon||_n}||_\infty$ 时，注意到 $\frac{\epsilon}{n||\epsilon||_n}\sim\mathcal{N}_n(0,I)$ ，方差上没有 $\sigma$ 这一项，也就达到了我们的目的。按照上一节的步骤，构造 $\mathcal{F}=\{||\frac{X^T\epsilon}{n||\epsilon||_n}||_\infty\leq\lambda_0\}$ ， $\lambda_0$ 的选取和 $\sigma$ 无关就能得到 $\mathbb{P}[\mathcal{F}]\approx1$ ，而且在 $\mathcal{F}$ 上我们有 $||X(\beta_0-\hat{\beta})||_n^2\leq||X(\beta-\beta_0)||_n^2+\lambda_0||\epsilon||_n(||\beta-\hat{\beta}||_1)$ $+\lambda||\hat{\epsilon}||_n(||\beta||_1-||\hat{\beta}||_1),$ 现在我们来通过一些有技巧的方法来得到一个一般的Oracle inequality，为了方便起见，不妨令 $\lambda_0^*=\lambda_0||\epsilon||_n,\lambda^*=\lambda||\hat{\epsilon}||_n$ ，则 $\left\|X\left(\beta_{0}-\hat{\beta}\right)\right\|_{n}^{2} \leq\left\|X\left(\beta-\beta_{0}\right)\right\|_{n}^{2}+\lambda_{0}^{*}\|\beta-\hat{\beta}\|_{1}+\lambda^{*}\|\beta\|_{1}-\lambda^{*}\|\hat{\beta}\|_{1}，$ 注意到右边后三项小于等于
$\lambda_{0}^{*}||\beta_{S}-\hat{\beta}_{S}||_{1}+\lambda_{0}^{*}\left\|\beta_{-S}\right\|_{1}+\lambda_{0}^{*}||\hat{\beta}_{-S}||_{1}$ $+\lambda^{*}||\beta_{S}-\hat{\beta}_{S}||_{1}+\lambda^{*}\left\|\beta_{-S}\right\|_{1}+\lambda^{*}||\hat{\beta}_{-S}||_{1}$ 整理下一可得
$\left\|X\left(\beta_{0}-\hat{\beta}\right)\right\|_{n}^{2}+(\lambda^*-\lambda_0^*)||\hat{\beta}_{-S}-\beta_{-S}||_1\leq$ $\left\|X\left(\beta_{0}-{\beta}\right)\right\|_{n}^{2}+(\lambda^*+\lambda_0^*)||\hat{\beta}_{S}-\beta_{S}||_1$ $+(\lambda^*+\lambda_0^*)||\beta_{-S}||_1$ 令 $\lambda_\delta^*=\lambda_U^*+\delta\lambda_L^*,\lambda_U^*=\lambda^*+\lambda_0^*,\lambda_L=\lambda^*-\lambda_0^*,0<\delta<1$ ,则
$\left\|X\left(\beta_{0}-\hat{\beta}\right)\right\|_{n}^{2}+\lambda_L^*||\hat{\beta}_{-S}-\beta_{-S}||_1+\delta\lambda_L^*||\hat{\beta}_{S}-\beta_{S}||_1\leq$ $\left\|X\left(\beta_{0}-{\beta}\right)\right\|_{n}^{2}+\lambda_\delta^*||\hat{\beta}_{S}-\beta_{S}||_1+2\lambda^*||\beta_{-S}||_1.\tag2$ 当然我们只需要考虑(想一想为什么？) $\left\|X\left(\beta_{0}-\hat{\beta}\right)\right\|_{n}^{2}+\delta\lambda_L^*||\hat{\beta}-\beta||_1\geq\left\|X\left(\beta_{0}-{\beta}\right)\right\|_{n}^{2}+2\lambda^*||\beta_{-S}||_1$ 的情况，故自然有
$(1-\delta)\lambda_L^*||\hat{\beta}_{-S}-\beta_{-S}||_1\leq\lambda_\delta^*||\hat{\beta}_{S}-\beta_{S}||_1.$ 令 $L=\frac{\lambda_\delta^*}{(1-\delta)\lambda_L^*}$ ，则有
$||\beta_S-\hat{\beta}_S||_1\leq\frac{|S|||X\hat{\beta}-X\beta||_n^2}{\hat{\phi}^2(L,S)},\tag3$ 由基本不等式，再结合(2)，做一点计算最后可得 $\begin{array}{l}{2 \delta \lambda^*_{\mathrm{L}}\left\|\hat{\beta}-\beta^{0}\right\|_{1}+\left\|X\left(\hat{\beta}-\beta^{0}\right)\right\|_{n}^{2}} \\ {\quad \leq \min _{S \subset\{1, \ldots, p\}} \min _{\beta \in \mathbb{R}^{p}}\left\{2 \delta \lambda^*_{\mathrm{L}}\left\|\beta-\beta^{0}\right\|_{1}+\left\|X\left(\beta-\beta^{0}\right)\right\|_{n}^{2}\right.} \\ {+\frac{{\lambda^*_{\delta}}^2|S|}{\hat{\phi}^{2}(L, S)}+4 \lambda_{0}\|\hat{\epsilon}\|_{n}\left\|\beta_{-S}\right\|_{1} \}}.\end{array}$ 注意到我们在这里显然要求 $\lambda^*>\lambda_0^*,i.e.,\frac{\lambda^*}{\lambda_0^*}>\frac{\|\epsilon\|_n}{\|\hat{\epsilon}\|_n}$ ,并且 $\|\hat{\epsilon}\|_n=\not0$ ，这意味着 $\|Y-X\hat{\beta}\|_n=\not0$ ，也就是说我们假设没有overfitting。实际上，我们也可以作 $|\frac{\|\hat{\epsilon}\|_n}{\|\epsilon\|_n}-1|\leq \eta$ 的假设 $,0<\eta<1.$ 这样对原设定稍作修改我们可以得到一个更一般的Oracle inequality(自己动手试一下，这里就不展示了)。

多元SR LASSO

Notation
$\|A\|_{1} :=\sum_{j, k}\left|A_{j, k}\right|$ $\|A\|_{\text { nuclear }} :=\operatorname{trace}\left(\left(A^{T} A\right)^{1 / 2}\right)$ 对于多元的情况，即响应变量 $Y$ 是一个矩阵，多元SR LASSO的定义是 $\hat{B} :=\arg \min _{B}\left\{\|Y-X B\|_{\text { nuclear }} / \sqrt{n}+\lambda_{}\|B\|_{1}\right\}$ i.e., $\begin{array}{r}{(\hat{B}, \hat{\Sigma})=\arg \min _{B, \Sigma>0}\left\{\operatorname{trace}\left((Y-X B)^{T}(Y-X B) \Sigma^{-1 / 2}\right) / n\right.} \\ {+\operatorname{trace}\left(\Sigma^{1 / 2}\right)+2 \lambda_{}\|B\|_{1} \}}\end{array}$ 多元SR LASSO是为了我们后面nodeiwse regression做准备，以便在高维下通过LASSO进行Inference。

参考文献

Sara van de geer, Estimation and Testing Under Sparsity, 2016

qq_37353305

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
高维统计学习笔记2——The Square Root Lasso

高维统计学习笔记2——The Square Root Lasso主要参考资料：Sara van de geer 《Estimation and Testing Under Sparsity》.学习笔记1，https://blog.csdn.net/qq_37353305/article/details/89003023前言本来想直奔通过LASSO进行Inference的课题，但是Squar...
复制链接

扫一扫

专栏目录