高维统计学习笔记3——高维数据下的检验

最新推荐文章于 2024-07-29 20:45:31 发布

qq_37353305

最新推荐文章于 2024-07-29 20:45:31 发布

阅读量2.8k

点赞数 6

分类专栏：学习笔记文章标签：高维统计统计推断 LASSO

本文链接：https://blog.csdn.net/qq_37353305/article/details/89056616

版权

学习笔记专栏收录该内容

9 篇文章 2 订阅

订阅专栏

高维统计学习笔记3——高维数据下的检验：By desparsifying the lasso to construct confidence interval.

主要参考资料：Sara Van De Geer《Estimation and Testing Under Sparsity》
Van de geer, ON ASYMPTOTICALLY OPTIMAL CONFIDENCE REGIONS AND
TESTS FOR HIGH-DIMENSIONAL MODELS, 2014

前言

2014年对高维统计来说是丰收的一年，随着Van de geer(2014)，Zhang&Zhang(2014)，Javanmard(2014)等几篇重量级文章的文章的到来，高维数据下的检验总算是拉开窗帘看到了曙光。

高维数据下的检验

实际上，在低维情况下对LASSO进行检验并不是一件困难的事情，多数情况下我们只要要求 $\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow C$ , 这里要求 $C$ 是一个正定阵，那么就可以进行下去。LASSO的定义是 $\hat{\beta}=\hat{\beta}(\lambda) :=\underset{\beta \in \mathbb{R}^{p}}{\arg \min }\left(\|Y-\mathbf{X} \beta\|_{2}^{2} / n+2 \lambda\|\beta\|_{1}\right)$ 由KKT条件，
$\begin{aligned}-\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\lambda \hat{\kappa} &=0 \\\|\hat{\kappa}\|_{\infty} \leq 1 & \text { and } \quad \hat{\kappa}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}\right) \quad \text { if } \hat{\beta}_{j} =\not 0 \end{aligned}$ 若 $n>p,\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow C$ ，当 $n$ 很大的时候有
$\hat{\Sigma}(\hat{\beta}-\beta^0)=-\lambda\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\mathbf{X}^T\epsilon/n \tag1$ 如果 $\lambda=o(n^{-0.5}),\epsilon\sim\mathcal{N}_n(0,\sigma^2I)$ ，那么显然有
$\sqrt{n}(\hat{\beta}-\beta^0)\rightarrow_{d}N(0,\sigma^2C^{-1}).$ 然而，在高维情况下， $\hat{\Sigma}$ 收敛到一个正定矩阵是不可能做到的，所以我们需要新的思路。Van de geer她们的想法是，既然 $\hat{\Sigma}$ 是奇异的，那么我们可以想办法找到一个矩阵 $\hat{\Theta}$ ，使得 $\hat{\Theta} \hat{\Sigma}\approx I$ ，然后再对 $\hat{\Theta} \hat{\Sigma}-I$ 作bound不就行了，这样我们对(1)进行变换易得 $\hat{\beta}-\beta^{0}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\Theta} \mathbf{X}^{T} \varepsilon / n-\Delta / \sqrt{n},$ where $\Delta :=\sqrt{n}(\hat{\Theta} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right).$
假如我们有 $\Delta=o_p(1),\varepsilon\sim\mathcal{N}_n(0,\sigma_{\varepsilon}^2I)$ ，令 $W=\hat{\Theta} \mathbf{X}^{T}\varepsilon / n,\hat{b}=\hat{\beta}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta} \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n$ ，那么
$\sqrt{n}\left(\hat{b}-\beta^{0}\right)=W+o_{\mathbb{P}}(1), \quad W | \mathbf{X} \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Theta} \hat{\Sigma} \hat{\Theta}^{T}\right)$ 也就是说 $\hat{b}$ 是渐进正态而且也是渐进无偏的，这样我们就可以利用LASSO进行Inference了。现在的主要问题是，如何构造 $\hat{\Theta}$ 使得 $\Delta=o_p(1)$ 。文中提出来的方法是Nodewise regression，也就是
$\hat{\gamma}_{j} :=\underset{\gamma \in \mathbb{R}^{p-1}}{\arg \min }\left(\left\|X_{j}-\mathbf{X}_{-j} \gamma\right\|_{2}^{2} / n+2 \lambda_{j}\|\gamma\|_{1}\right),\tag2$ 让 $\mathbf{X}$ 自身的某列和其他列之间进行惩罚回归，这里
$\hat{\gamma}_{j}=\left\{\hat{\gamma}_{j, k} ; k=1, \ldots, p, k=\not j\right\}.$ 令 $\hat{C} :=\left( \begin{array}{cccc}{1} & {-\hat{\gamma}_{1,2}} & {\cdots} & {-\hat{\gamma}_{1, p}} \\ {-\hat{\gamma}_{2,1}} & {1} & {\cdots} & {-\hat{\gamma}_{2, p}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {-\hat{\gamma}_{p, 1}} & {-\hat{\gamma}_{p, 2}} & {\cdots} & {1}\end{array}\right)，$ $\hat{T}^{2} :=\operatorname{diag}\left(\hat{\tau}_{1}^{2}, \ldots, \hat{\tau}_{p}^{2}\right)$ , where $\hat{\tau}_{j}^{2} :=\left\|X_{j}-\mathbf{X}_{-j} \hat{\gamma}_{j}\right\|_{2}^{2} / n+\lambda_{j}\left\|\hat{\gamma}_{j}\right\|_{1}.$
然后我们定义 $\hat{\Theta}_{\text { Lasso }} :=\hat{T}^{-2} \hat{C}.$ 这样我们就找到了一个 $\hat{\Theta}$ ，我们现在研究一下 $\hat{\Theta}_{\text { Lasso }}$ ，看一下他是否满足 $\Delta_{\text { Lasso }} :=\sqrt{n}(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right)=o_{\mathbb{P}}(1).$ Notation: $|\|A\||_{1} :=\max _{j} \sum_{k}\left|A_{k, j}\right|,\|A\|_\infty=\max_{j,k}|A_{k,j}|.$ 我们记 $\hat{\Theta}_{\text { Lasso,j }}$ 是 $\hat{\Theta}_{\text { Lasso }}$ 的第 $j$ 行，它是个 $1\times p$ 的行向量。 $\hat{C}_j$ 也是相似的定义。注意到 $\mathbf{X}\hat{C}_j^T=X_j-\mathbf{X}_{-j}\hat{\gamma}_j,\hat{\Theta}_{\text { Lasso,j }}=\frac{\hat{C}_j}{\hat{\tau}_j^2},$ (2)的KKT条件为
$\mathbf{X}_{-j}^T(X_j-\mathbf{X}_{-j}\hat{\gamma}_j)/n=\lambda_j\hat{\kappa}_j.$ 因此 $\frac{X_{j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{n}=1,\frac{\mathbf{X}_{-j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{ n}=\frac{\lambda_{j} \hat{\kappa}_j}{ \hat{\tau}_{j}^{2}}.\tag3$ 由(3)，显然有 $\left\|\hat{\Sigma} \hat{\Theta}_{\text{Lasso,j}}^{T}-e_{j}\right\|_{\infty} \leq \lambda_{j} / \hat{\tau}_{j}^{2}.$ 所以 $\|\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\|_\infty\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}.$ 当然，光这样说是非常抽象而且干瘪的，我们结合Zhang&Zhang(2014)来看一下我们到底在做一件什么事情。记 $Z_j=X_j-\mathbf{X}_{-j}\hat{\gamma}_j$ ， $\hat{\Theta}=\hat{\Theta}_{\text{Lasso}}$ ，那么 $\hat{b}_j=\hat{\beta}_j+\hat{\Theta}_j \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta}_j \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n=\hat{\beta}_j+\frac{Z_j^T(Y-\mathbf{X} \hat{\beta})}{Z_j^TX_j}$ $=\frac{Z_j^TY}{Z_j^TX_j}-\sum_{k=\not j}{\frac{Z_j^TX_k\hat{\beta}_k}{Z_j^TX_j}}=\beta_j+\frac{Z_j^T\varepsilon}{Z_j^TX_j}+\sum_{k=\not j}{\frac{Z_j^TX_k(\hat{\beta}_k-\beta_k)}{Z_j^TX_j}}.$ 也就是说，这个Debiased Lasso估计实际上是对 $Z_j$ 方向上的线性回归估计做了纠偏后得到的一个估计。

假设 $\hat{\Sigma}_{j, j} \leq M^{2}<\infty,\forall j$ ，由学习笔记1的内容我们知道取
$\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{\frac{2\left(t^{2}+\log (p)\right)}{n}}$ ，有至少 $1-e^{-t^2/2}$ 的概率使得 $\left\|\hat{\beta}-\beta^{0}\right\|_{1} \leq 16 \lambda \frac{s_{0}}{\phi_{0}^{2}} \quad \text { and } \quad\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n \leq 16 \lambda^{2} \frac{s_{0}}{\phi_{0}^{2}},$ 于是 $\begin{aligned}\|\Delta\|_{\infty} / \sqrt{n} &=\|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left(\hat{\beta}-\beta^{0}\right)\left\|_{\infty}\right.\\ & \leq \|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left\|_{\infty}\right\| \hat{\beta}-\beta^{0}\left\|_{1}\right.\end{aligned}.$ $\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}16 \lambda \frac{s_{0}}{\phi_{0}^{2}}.$ 所以，当 $\varepsilon \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} I\right),\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{2\left(t^{2}+\log (p)\right) / n}$ 时，我们有结果 $\begin{array}{c}{\sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right)=W+\Delta} \\ {W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right), \quad \hat{\Omega} :=\hat{\Theta}_{\text { Lasso }} \hat{\Sigma} \hat{\Theta}_{\text { Lasso }}^T} \\ {\mathbb{P}\left[\|\Delta\|_{\infty} \geq 16 \sqrt{n}\left(\max _{j} \frac{\lambda_{j}}{\hat{\tau}_{j}^{2}}\right) \frac{\lambda s_{0}}{\phi_{0}^{2}}\right] \leq 2 \exp \left[-t^{2}\right]}\end{array}$ 当然，我们这里讨论的是 $\mathbf{X}$ 固定下来的情况，而 $\mathbf{X}$ 具有什么样的形式是非常重要的，也就把 $\mathbf{X}$ 看作是随机阵去进行处理。在这里，假定 $\mathbf{X}$ 是高斯随机阵，每一行独立且来自于同一个 $\mathcal{N}_p(0,\Sigma)$ 。我们先介绍一个条件——restricted eigenvalue condition:
我们说 $\hat{\Sigma}=\mathbf{X}^T\mathbf{X}/n$ 在集合 $S$ 上满足restricted eigenvalue condition如果存在 $\phi_0>0$ ，使得 $\boldsymbol{\beta}^{\top}\hat{ \boldsymbol{\Sigma} }\boldsymbol{\beta}=\|\mathbf{X} \boldsymbol{\beta}\|_{2}^{2} / n \geq \phi_{0}^{2}\|\boldsymbol{\beta}\|_{2}^{2}, \forall \boldsymbol{\beta} \in \mathscr{C}(S, 3),$ 这里 $\mathscr{C}(S, 3) :=\left\{\boldsymbol{\beta} \in \mathbb{R}^{p} :\left\|\boldsymbol{\beta}_{S^{c}}\right\|_{1} \leq 3\left\|\boldsymbol{\beta}_{S}\right\|_{1}\right\}.$ 这个条件显然是要比compability condition强的。所以说，我们只要能够说明 $\hat{\Sigma}$ 满足这个条件，那么compability的条件也就自然得到满足了。非常幸运的是，Raskutti et al.(2010)证明了在高斯设计下有不等式 $\|\mathbf{X} \boldsymbol{\beta}\|_{2} / \sqrt{n} \geq\left\|\mathbf{\Sigma}^{1 / 2} \boldsymbol{\beta}\right\|_{2} / 4-9 \sqrt{\max _{j \in\{1,2, \cdots, p\}} \boldsymbol{\Sigma}_{j, j}} \sqrt{\log p / n}\|\boldsymbol{\beta}\|_{1}, \forall \boldsymbol{\beta} \in \mathbb{R}^{p},$ $(4)$ 这个不等式是依概率成立的。这样，我们可以证明如果 $\Sigma$ 满足restricted eigenvalue condition(of order $s$ ,parameter $\phi_0$ )，那么当 $n>C_{3} \frac{16 \max _{j \in\{1,2, \cdots, p\}} \Sigma_{j, j}}{\phi_{0}^{2}} s \log p$ 时， $\hat{\Sigma}$ 依概率满足restricted eigenvalue condition。
有了这些我们可以来完成最后的拼图了，假设 $\mathbf{X}\sim^{IID}\mathcal{N}_p(0,\Sigma),\Sigma$ 有大于0的最小特征值，i.e., $\Lambda_{\min }^{2}=\mathcal{O}(1)$ ， $\max _{j} \Sigma_{j, j}=\mathcal{O}(1)$ 。那么显然 $\Sigma$ 满足restricted eigenvalue condition，再假设 $s_0=o(\frac{n}{\log p})$ ，则 $\hat{\Sigma}$ 依概率满足restricted eigenvalue condition,所以也满足compability condition,所以自然有 $\begin{array}{c}{\left\|\hat{\beta}-\beta^{0}\right\|_{1}=\mathcal{O}_{\mathbb{P}}\left(s_{0} \sqrt{\frac{\log (p)}{n}}\right)} \\ {\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n=\mathcal{O}_{\mathbb{P}}\left(\frac{s_{0} \log (p)}{n}\right)}\end{array}\tag5$ 注意到 $\frac{\left\|\boldsymbol{\Sigma}^{1 / 2}\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)\right\|_{2}^{2}}{\left\|\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right\|_{2}^{2}} \geq \Lambda_{\mathrm{min}}^{2},$ 再结合(4),(5)可以得到 $\left\|\hat{\beta}-\beta^{0}\right\|_{2}=\mathcal{O}_{\mathbb{P}}\left(\sqrt{s_{0} \log (p) / n}\right).$ 我们还需要知道 $1/\hat{\tau}_{j}^{2}$ 的大小，希望它不要太大。定义row-sparsity为 $s_{j} :=\left|\left\{k =\not j : \Theta_{j, k} =\not 0\right\}\right|$ ，这里 $\Theta :=\Sigma^{-1}$ 。我们通过假设 $max _{j} s_{j}=o(n / \log (p))$ ， $\lambda_{j}\asymp \sqrt{\log (p) / n},\text{for all j }.$ 以及我们上面所做的所有假设去限制它，有 $\max _{j} 1 / \hat{\tau}_{j}^{2}=\mathcal{O}_{\mathbb{P}}(1)$ ,具体证明就不给了。详见Van de geer(2014)。这样，在这些假设下，若稀疏性满足 $s_{0}=o(\sqrt{n} / \log (p))$ ，那么我们有 $\begin{aligned} \sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right) &=W+\Delta \\ W | \mathbf{X} & \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right) \\\|\Delta\|_{\infty} &=o_{\mathbb{P}}(1) \end{aligned}.$ 这里 $\left\|\hat{\Omega}-\Sigma^{-1}\right\|_{\infty}=o_{\mathbb{P}}(1),$ $W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} .$ 最后说一下， $\hat{\Theta}$ 不一定要通过LASSO nodewise regression去找，也可以通过我们在学习笔记2中所讲的Square Root LASSO的方法去找，这样得到的是 $\hat{\Theta}_{\sqrt{\text { Lasso}}}$ ，实际上它具有更好的性质，可以自己试着用相同的方法证明一下。

参考文献

[1]Sara van de Geer, Peter Bhlmann, Yaacov Ritov, and Ruben Dezeure. On asymptotically optimal confidence regions and tests for high-dimensional models. The Annals of Statistics, 42(3):1166–1202, 06 2014. doi: 10.1214/14-AOS1221. URL http://dx.doi.org/10.1214/14-AOS1221.
[2] Sara Van De Geer, Estimation and Testing Under Sparsity, 2014.

qq_37353305

关注

6
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
高维统计学习笔记3——高维数据下的检验

高维统计学习笔记3——高维数据下的检验：By desparsifying the lasso to construct confidence interval.主要参考资料：Sara Van De Geer《Estimation and Testing Under Sparsity》Van de geer, ON ASYMPTOTICALLY OPTIMAL CONFIDENCE REGION...
复制链接

扫一扫

专栏目录