高维统计学习笔记3——高维数据下的检验

高维统计学习笔记3——高维数据下的检验:By desparsifying the lasso to construct confidence interval.

主要参考资料:Sara Van De Geer《Estimation and Testing Under Sparsity》
Van de geer, ON ASYMPTOTICALLY OPTIMAL CONFIDENCE REGIONS AND
TESTS FOR HIGH-DIMENSIONAL MODELS, 2014

前言

2014年对高维统计来说是丰收的一年,随着Van de geer(2014),Zhang&Zhang(2014),Javanmard(2014)等几篇重量级文章的文章的到来,高维数据下的检验总算是拉开窗帘看到了曙光。

高维数据下的检验

实际上,在低维情况下对LASSO进行检验并不是一件困难的事情,多数情况下我们只要要求 Σ ^ = 1 n X T X → C \hat{\Sigma}=\frac{1}{n}X^TX\rightarrow C Σ^=n1XTXC, 这里要求 C C C是一个正定阵,那么就可以进行下去。LASSO的定义是 β ^ = β ^ ( λ ) : = arg ⁡ min ⁡ β ∈ R p ( ∥ Y − X β ∥ 2 2 / n + 2 λ ∥ β ∥ 1 ) \hat{\beta}=\hat{\beta}(\lambda) :=\underset{\beta \in \mathbb{R}^{p}}{\arg \min }\left(\|Y-\mathbf{X} \beta\|_{2}^{2} / n+2 \lambda\|\beta\|_{1}\right) β^=β^(λ):=βRpargmin(YXβ22/n+2λβ1)由KKT条件,
− X T ( Y − X β ^ ) / n + λ κ ^ = 0 ∥ κ ^ ∥ ∞ ≤ 1  and  κ ^ j = sign ⁡ ( β ^ j )  if  β ^ j = ̸ 0 \begin{aligned}-\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\lambda \hat{\kappa} &=0 \\\|\hat{\kappa}\|_{\infty} \leq 1 & \text { and } \quad \hat{\kappa}_{j}=\operatorname{sign}\left(\hat{\beta}_{j}\right) \quad \text { if } \hat{\beta}_{j} =\not 0 \end{aligned} XT(YXβ^)/n+λκ^κ^1=0 and κ^j=sign(β^j) if β^j≠0 n > p , Σ ^ = 1 n X T X → C n>p,\hat{\Sigma}=\frac{1}{n}X^TX\rightarrow C n>p,Σ^=n1XTXC,当 n n n很大的时候有
(1) Σ ^ ( β ^ − β 0 ) = − λ X T ( Y − X β ^ ) / n + X T ϵ / n \hat{\Sigma}(\hat{\beta}-\beta^0)=-\lambda\mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n+\mathbf{X}^T\epsilon/n \tag1 Σ^(β^β0)=λXT(YXβ^)/n+XTϵ/n(1)如果 λ = o ( n − 0.5 ) , ϵ ∼ N n ( 0 , σ 2 I ) \lambda=o(n^{-0.5}),\epsilon\sim\mathcal{N}_n(0,\sigma^2I) λ=o(n0.5),ϵNn(0,σ2I),那么显然有
n ( β ^ − β 0 ) → d N ( 0 , σ 2 C − 1 ) . \sqrt{n}(\hat{\beta}-\beta^0)\rightarrow_{d}N(0,\sigma^2C^{-1}). n (β^β0)dN(0,σ2C1).然而,在高维情况下, Σ ^ \hat{\Sigma} Σ^收敛到一个正定矩阵是不可能做到的,所以我们需要新的思路。Van de geer她们的想法是,既然 Σ ^ \hat{\Sigma} Σ^是奇异的,那么我们可以想办法找到一个矩阵 Θ ^ \hat{\Theta} Θ^,使得 Θ ^ Σ ^ ≈ I \hat{\Theta} \hat{\Sigma}\approx I Θ^Σ^I,然后再对 Θ ^ Σ ^ − I \hat{\Theta} \hat{\Sigma}-I Θ^Σ^I作bound不就行了,这样我们对(1)进行变换易得 β ^ − β 0 + Θ ^ λ κ ^ = Θ ^ X T ε / n − Δ / n , \hat{\beta}-\beta^{0}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\Theta} \mathbf{X}^{T} \varepsilon / n-\Delta / \sqrt{n}, β^β0+Θ^λκ^=Θ^XTε/nΔ/n ,where Δ : = n ( Θ ^ Σ ^ − I ) ( β ^ − β 0 ) . \Delta :=\sqrt{n}(\hat{\Theta} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right). Δ:=n (Θ^Σ^I)(β^β0).
假如我们有 Δ = o p ( 1 ) , ε ∼ N n ( 0 , σ ε 2 I ) \Delta=o_p(1),\varepsilon\sim\mathcal{N}_n(0,\sigma_{\varepsilon}^2I) Δ=op(1),εNn(0,σε2I),令 W = Θ ^ X T ε / n , b ^ = β ^ + Θ ^ λ κ ^ = β ^ + Θ ^ X T ( Y − X β ^ ) / n W=\hat{\Theta} \mathbf{X}^{T}\varepsilon / n,\hat{b}=\hat{\beta}+\hat{\Theta} \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta} \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n W=Θ^XTε/n,b^=β^+Θ^λκ^=β^+Θ^XT(YXβ^)/n,那么
n ( b ^ − β 0 ) = W + o P ( 1 ) , W ∣ X ∼ N p ( 0 , σ ε 2 Θ ^ Σ ^ Θ ^ T ) \sqrt{n}\left(\hat{b}-\beta^{0}\right)=W+o_{\mathbb{P}}(1), \quad W | \mathbf{X} \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Theta} \hat{\Sigma} \hat{\Theta}^{T}\right) n (b^β0)=W+oP(1),WXNp(0,σε2Θ^Σ^Θ^T)也就是说 b ^ \hat{b} b^是渐进正态而且也是渐进无偏的,这样我们就可以利用LASSO进行Inference了。现在的主要问题是,如何构造 Θ ^ \hat{\Theta} Θ^使得 Δ = o p ( 1 ) \Delta=o_p(1) Δ=op(1)。文中提出来的方法是Nodewise regression,也就是
(2) γ ^ j : = arg ⁡ min ⁡ γ ∈ R p − 1 ( ∥ X j − X − j γ ∥ 2 2 / n + 2 λ j ∥ γ ∥ 1 ) , \hat{\gamma}_{j} :=\underset{\gamma \in \mathbb{R}^{p-1}}{\arg \min }\left(\left\|X_{j}-\mathbf{X}_{-j} \gamma\right\|_{2}^{2} / n+2 \lambda_{j}\|\gamma\|_{1}\right),\tag2 γ^j:=γRp1argmin(XjXjγ22/n+2λjγ1),(2) X \mathbf{X} X自身的某列和其他列之间进行惩罚回归,这里
γ ^ j = { γ ^ j , k ; k = 1 , … , p , k = ̸ j } . \hat{\gamma}_{j}=\left\{\hat{\gamma}_{j, k} ; k=1, \ldots, p, k=\not j\right\}. γ^j={γ^j,k;k=1,,p,k≠j}. C ^ : = ( 1 − γ ^ 1 , 2 ⋯ − γ ^ 1 , p − γ ^ 2 , 1 1 ⋯ − γ ^ 2 , p ⋮ ⋮ ⋱ ⋮ − γ ^ p , 1 − γ ^ p , 2 ⋯ 1 ) , \hat{C} :=\left( \begin{array}{cccc}{1} & {-\hat{\gamma}_{1,2}} & {\cdots} & {-\hat{\gamma}_{1, p}} \\ {-\hat{\gamma}_{2,1}} & {1} & {\cdots} & {-\hat{\gamma}_{2, p}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {-\hat{\gamma}_{p, 1}} & {-\hat{\gamma}_{p, 2}} & {\cdots} & {1}\end{array}\right), C^:=1γ^2,1γ^p,1γ^1,21γ^p,2γ^1,pγ^2,p1 T ^ 2 : = diag ⁡ ( τ ^ 1 2 , … , τ ^ p 2 ) \hat{T}^{2} :=\operatorname{diag}\left(\hat{\tau}_{1}^{2}, \ldots, \hat{\tau}_{p}^{2}\right) T^2:=diag(τ^12,,τ^p2), where τ ^ j 2 : = ∥ X j − X − j γ ^ j ∥ 2 2 / n + λ j ∥ γ ^ j ∥ 1 . \hat{\tau}_{j}^{2} :=\left\|X_{j}-\mathbf{X}_{-j} \hat{\gamma}_{j}\right\|_{2}^{2} / n+\lambda_{j}\left\|\hat{\gamma}_{j}\right\|_{1}. τ^j2:=XjXjγ^j22/n+λjγ^j1.
然后我们定义 Θ ^  Lasso  : = T ^ − 2 C ^ . \hat{\Theta}_{\text { Lasso }} :=\hat{T}^{-2} \hat{C}. Θ^ Lasso :=T^2C^.这样我们就找到了一个 Θ ^ \hat{\Theta} Θ^,我们现在研究一下 Θ ^  Lasso  \hat{\Theta}_{\text { Lasso }} Θ^ Lasso ,看一下他是否满足 Δ  Lasso  : = n ( Θ ^  Lasso  Σ ^ − I ) ( β ^ − β 0 ) = o P ( 1 ) . \Delta_{\text { Lasso }} :=\sqrt{n}(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I)\left(\hat{\beta}-\beta^{0}\right)=o_{\mathbb{P}}(1). Δ Lasso :=n (Θ^ Lasso Σ^I)(β^β0)=oP(1).Notation: ∣ ∥ A ∥ ∣ 1 : = max ⁡ j ∑ k ∣ A k , j ∣ , ∥ A ∥ ∞ = max ⁡ j , k ∣ A k , j ∣ . |\|A\||_{1} :=\max _{j} \sum_{k}\left|A_{k, j}\right|,\|A\|_\infty=\max_{j,k}|A_{k,j}|. A1:=jmaxkAk,j,A=j,kmaxAk,j.我们记 Θ ^  Lasso,j  \hat{\Theta}_{\text { Lasso,j }} Θ^ Lasso,j  Θ ^  Lasso  \hat{\Theta}_{\text { Lasso }} Θ^ Lasso 的第 j j j行,它是个 1 × p 1\times p 1×p的行向量。 C ^ j \hat{C}_j C^j也是相似的定义。注意到 X C ^ j T = X j − X − j γ ^ j , Θ ^  Lasso,j  = C ^ j τ ^ j 2 , \mathbf{X}\hat{C}_j^T=X_j-\mathbf{X}_{-j}\hat{\gamma}_j,\hat{\Theta}_{\text { Lasso,j }}=\frac{\hat{C}_j}{\hat{\tau}_j^2}, XC^jT=XjXjγ^j,Θ^ Lasso,j =τ^j2C^j,(2)的KKT条件为
X − j T ( X j − X − j γ ^ j ) / n = λ j κ ^ j . \mathbf{X}_{-j}^T(X_j-\mathbf{X}_{-j}\hat{\gamma}_j)/n=\lambda_j\hat{\kappa}_j. XjT(XjXjγ^j)/n=λjκ^j.因此 (3) X j T X Θ ^  Lasso,  j T n = 1 , X − j T X Θ ^  Lasso,  j T n = λ j κ ^ j τ ^ j 2 . \frac{X_{j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{n}=1,\frac{\mathbf{X}_{-j}^{T} \mathbf{X} \hat{\Theta}_{\text { Lasso, } j}^{T} }{ n}=\frac{\lambda_{j} \hat{\kappa}_j}{ \hat{\tau}_{j}^{2}}.\tag3 nXjTXΘ^ Lasso, jT=1,nXjTXΘ^ Lasso, jT=τ^j2λjκ^j.(3)由(3),显然有 ∥ Σ ^ Θ ^ Lasso,j T − e j ∥ ∞ ≤ λ j / τ ^ j 2 . \left\|\hat{\Sigma} \hat{\Theta}_{\text{Lasso,j}}^{T}-e_{j}\right\|_{\infty} \leq \lambda_{j} / \hat{\tau}_{j}^{2}. Σ^Θ^Lasso,jTejλj/τ^j2.所以 ∥ Θ ^  Lasso  Σ ^ − I ∥ ∞ ≤ max ⁡ j λ j / τ ^ j 2 . \|\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\|_\infty\leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}. Θ^ Lasso Σ^Ijmaxλj/τ^j2.当然,光这样说是非常抽象而且干瘪的,我们结合Zhang&Zhang(2014)来看一下我们到底在做一件什么事情。记 Z j = X j − X − j γ ^ j Z_j=X_j-\mathbf{X}_{-j}\hat{\gamma}_j Zj=XjXjγ^j Θ ^ = Θ ^ Lasso \hat{\Theta}=\hat{\Theta}_{\text{Lasso}} Θ^=Θ^Lasso,那么 b ^ j = β ^ j + Θ ^ j λ κ ^ = β ^ + Θ ^ j X T ( Y − X β ^ ) / n = β ^ j + Z j T ( Y − X β ^ ) Z j T X j \hat{b}_j=\hat{\beta}_j+\hat{\Theta}_j \lambda \hat{\kappa}=\hat{\beta}+\hat{\Theta}_j \mathbf{X}^{T}(Y-\mathbf{X} \hat{\beta}) / n=\hat{\beta}_j+\frac{Z_j^T(Y-\mathbf{X} \hat{\beta})}{Z_j^TX_j} b^j=β^j+Θ^jλκ^=β^+Θ^jXT(YXβ^)/n=β^j+ZjTXjZjT(YXβ^) = Z j T Y Z j T X j − ∑ k = ̸ j Z j T X k β ^ k Z j T X j = β j + Z j T ε Z j T X j + ∑ k = ̸ j Z j T X k ( β ^ k − β k ) Z j T X j . =\frac{Z_j^TY}{Z_j^TX_j}-\sum_{k=\not j}{\frac{Z_j^TX_k\hat{\beta}_k}{Z_j^TX_j}}=\beta_j+\frac{Z_j^T\varepsilon}{Z_j^TX_j}+\sum_{k=\not j}{\frac{Z_j^TX_k(\hat{\beta}_k-\beta_k)}{Z_j^TX_j}}. =ZjTXjZjTYk≠jZjTXjZjTXkβ^k=βj+ZjTXjZjTε+k≠jZjTXjZjTXk(β^kβk).也就是说,这个Debiased Lasso估计实际上是对 Z j Z_j Zj方向上的线性回归估计做了纠偏后得到的一个估计。

假设 Σ ^ j , j ≤ M 2 &lt; ∞ , ∀ j \hat{\Sigma}_{j, j} \leq M^{2}&lt;\infty,\forall j Σ^j,jM2<,j,由学习笔记1的内容我们知道取
λ ≥ 2 M σ ε 2 ( t 2 + log ⁡ ( p ) ) n \lambda \geq 2 M \sigma_{\varepsilon} \sqrt{\frac{2\left(t^{2}+\log (p)\right)}{n}} λ2Mσεn2(t2+log(p)) ,有至少 1 − e − t 2 / 2 1-e^{-t^2/2} 1et2/2的概率使得 ∥ β ^ − β 0 ∥ 1 ≤ 16 λ s 0 ϕ 0 2  and  ∥ X ( β ^ − β 0 ) ∥ 2 2 / n ≤ 16 λ 2 s 0 ϕ 0 2 , \left\|\hat{\beta}-\beta^{0}\right\|_{1} \leq 16 \lambda \frac{s_{0}}{\phi_{0}^{2}} \quad \text { and } \quad\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n \leq 16 \lambda^{2} \frac{s_{0}}{\phi_{0}^{2}}, β^β0116λϕ02s0 and X(β^β0)22/n16λ2ϕ02s0,于是 ∥ Δ ∥ ∞ / n = ∥ ( Θ ^  Lasso  Σ ^ − I ) ( β ^ − β 0 ) ∥ ∞ ≤ ∥ ( Θ ^  Lasso  Σ ^ − I ) ∥ ∞ ∥ β ^ − β 0 ∥ 1 . \begin{aligned}\|\Delta\|_{\infty} / \sqrt{n} &amp;=\|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left(\hat{\beta}-\beta^{0}\right)\left\|_{\infty}\right.\\ &amp; \leq \|\left(\hat{\Theta}_{\text { Lasso }} \hat{\Sigma}-I\right)\left\|_{\infty}\right\| \hat{\beta}-\beta^{0}\left\|_{1}\right.\end{aligned}. Δ/n =(Θ^ Lasso Σ^I)(β^β0)(Θ^ Lasso Σ^I)β^β01. ≤ max ⁡ j λ j / τ ^ j 2 16 λ s 0 ϕ 0 2 . \leq\max_{j}{\lambda_{j} / \hat{\tau}_{j}^{2}}16 \lambda \frac{s_{0}}{\phi_{0}^{2}}. jmaxλj/τ^j216λϕ02s0.所以,当 ε ∼ N n ( 0 , σ ε 2 I ) , λ ≥ 2 M σ ε 2 ( t 2 + log ⁡ ( p ) ) / n \varepsilon \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} I\right),\lambda \geq 2 M \sigma_{\varepsilon} \sqrt{2\left(t^{2}+\log (p)\right) / n} εNn(0,σε2I),λ2Mσε2(t2+log(p))/n 时,我们有结果 n ( b ^  Lasso  − β 0 ) = W + Δ W = Θ ^  Lasso  X T ε / n ∼ N n ( 0 , σ ε 2 Ω ^ ) , Ω ^ : = Θ ^  Lasso  Σ ^ Θ ^  Lasso  T P [ ∥ Δ ∥ ∞ ≥ 16 n ( max ⁡ j λ j τ ^ j 2 ) λ s 0 ϕ 0 2 ] ≤ 2 exp ⁡ [ − t 2 ] \begin{array}{c}{\sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right)=W+\Delta} \\ {W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} \sim \mathcal{N}_{n}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right), \quad \hat{\Omega} :=\hat{\Theta}_{\text { Lasso }} \hat{\Sigma} \hat{\Theta}_{\text { Lasso }}^T} \\ {\mathbb{P}\left[\|\Delta\|_{\infty} \geq 16 \sqrt{n}\left(\max _{j} \frac{\lambda_{j}}{\hat{\tau}_{j}^{2}}\right) \frac{\lambda s_{0}}{\phi_{0}^{2}}\right] \leq 2 \exp \left[-t^{2}\right]}\end{array} n (b^ Lasso β0)=W+ΔW=Θ^ Lasso XTε/n Nn(0,σε2Ω^),Ω^:=Θ^ Lasso Σ^Θ^ Lasso TP[Δ16n (maxjτ^j2λj)ϕ02λs0]2exp[t2]当然,我们这里讨论的是 X \mathbf{X} X固定下来的情况,而 X \mathbf{X} X具有什么样的形式是非常重要的,也就把 X \mathbf{X} X看作是随机阵去进行处理。在这里,假定 X \mathbf{X} X是高斯随机阵,每一行独立且来自于同一个 N p ( 0 , Σ ) \mathcal{N}_p(0,\Sigma) Np(0,Σ)。我们先介绍一个条件——restricted eigenvalue condition:
我们说 Σ ^ = X T X / n \hat{\Sigma}=\mathbf{X}^T\mathbf{X}/n Σ^=XTX/n在集合 S S S上满足restricted eigenvalue condition如果存在 ϕ 0 &gt; 0 \phi_0&gt;0 ϕ0>0,使得 β ⊤ Σ ^ β = ∥ X β ∥ 2 2 / n ≥ ϕ 0 2 ∥ β ∥ 2 2 , ∀ β ∈ C ( S , 3 ) , \boldsymbol{\beta}^{\top}\hat{ \boldsymbol{\Sigma} }\boldsymbol{\beta}=\|\mathbf{X} \boldsymbol{\beta}\|_{2}^{2} / n \geq \phi_{0}^{2}\|\boldsymbol{\beta}\|_{2}^{2}, \forall \boldsymbol{\beta} \in \mathscr{C}(S, 3), βΣ^β=Xβ22/nϕ02β22,βC(S,3),这里 C ( S , 3 ) : = { β ∈ R p : ∥ β S c ∥ 1 ≤ 3 ∥ β S ∥ 1 } . \mathscr{C}(S, 3) :=\left\{\boldsymbol{\beta} \in \mathbb{R}^{p} :\left\|\boldsymbol{\beta}_{S^{c}}\right\|_{1} \leq 3\left\|\boldsymbol{\beta}_{S}\right\|_{1}\right\}. C(S,3):={βRp:βSc13βS1}.这个条件显然是要比compability condition强的。所以说,我们只要能够说明 Σ ^ \hat{\Sigma} Σ^满足这个条件,那么compability的条件也就自然得到满足了。非常幸运的是,Raskutti et al.(2010)证明了在高斯设计下有不等式 ∥ X β ∥ 2 / n ≥ ∥ Σ 1 / 2 β ∥ 2 / 4 − 9 max ⁡ j ∈ { 1 , 2 , ⋯ &ThinSpace; , p } Σ j , j log ⁡ p / n ∥ β ∥ 1 , ∀ β ∈ R p , \|\mathbf{X} \boldsymbol{\beta}\|_{2} / \sqrt{n} \geq\left\|\mathbf{\Sigma}^{1 / 2} \boldsymbol{\beta}\right\|_{2} / 4-9 \sqrt{\max _{j \in\{1,2, \cdots, p\}} \boldsymbol{\Sigma}_{j, j}} \sqrt{\log p / n}\|\boldsymbol{\beta}\|_{1}, \forall \boldsymbol{\beta} \in \mathbb{R}^{p}, Xβ2/n Σ1/2β2/49j{1,2,,p}maxΣj,j logp/n β1,βRp, ( 4 ) (4) (4)这个不等式是依概率成立的。这样,我们可以证明如果 Σ \Sigma Σ满足restricted eigenvalue condition(of order s s s,parameter ϕ 0 \phi_0 ϕ0),那么当 n &gt; C 3 16 max ⁡ j ∈ { 1 , 2 , ⋯ &ThinSpace; , p } Σ j , j ϕ 0 2 s log ⁡ p n&gt;C_{3} \frac{16 \max _{j \in\{1,2, \cdots, p\}} \Sigma_{j, j}}{\phi_{0}^{2}} s \log p n>C3ϕ0216maxj{1,2,,p}Σj,jslogp时, Σ ^ \hat{\Sigma} Σ^依概率满足restricted eigenvalue condition。
有了这些我们可以来完成最后的拼图了,假设 X ∼ I I D N p ( 0 , Σ ) , Σ \mathbf{X}\sim^{IID}\mathcal{N}_p(0,\Sigma),\Sigma XIIDNp(0,Σ),Σ有大于0的最小特征值,i.e., 1 / Λ min ⁡ 2 = O ( 1 ) 1 / \Lambda_{\min }^{2}=\mathcal{O}(1) 1/Λmin2=O(1) max ⁡ j Σ j , j = O ( 1 ) \max _{j} \Sigma_{j, j}=\mathcal{O}(1) maxjΣj,j=O(1)。那么显然 Σ \Sigma Σ满足restricted eigenvalue condition,再假设 s 0 = o ( n log ⁡ p ) s_0=o(\frac{n}{\log p}) s0=o(logpn),则 Σ ^ \hat{\Sigma} Σ^依概率满足restricted eigenvalue condition,所以也满足compability condition,所以自然有 (5) ∥ β ^ − β 0 ∥ 1 = O P ( s 0 log ⁡ ( p ) n ) ∥ X ( β ^ − β 0 ) ∥ 2 2 / n = O P ( s 0 log ⁡ ( p ) n ) \begin{array}{c}{\left\|\hat{\beta}-\beta^{0}\right\|_{1}=\mathcal{O}_{\mathbb{P}}\left(s_{0} \sqrt{\frac{\log (p)}{n}}\right)} \\ {\left\|\mathbf{X}\left(\hat{\beta}-\beta^{0}\right)\right\|_{2}^{2} / n=\mathcal{O}_{\mathbb{P}}\left(\frac{s_{0} \log (p)}{n}\right)}\end{array}\tag5 β^β01=OP(s0nlog(p) )X(β^β0)22/n=OP(ns0log(p))(5)注意到 ∥ Σ 1 / 2 ( β ^ − β 0 ) ∥ 2 2 ∥ β ^ − β 0 ∥ 2 2 ≥ Λ m i n 2 , \frac{\left\|\boldsymbol{\Sigma}^{1 / 2}\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)\right\|_{2}^{2}}{\left\|\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right\|_{2}^{2}} \geq \Lambda_{\mathrm{min}}^{2}, β^β022Σ1/2(β^β0)22Λmin2,再结合(4),(5)可以得到 ∥ β ^ − β 0 ∥ 2 = O P ( s 0 log ⁡ ( p ) / n ) . \left\|\hat{\beta}-\beta^{0}\right\|_{2}=\mathcal{O}_{\mathbb{P}}\left(\sqrt{s_{0} \log (p) / n}\right). β^β02=OP(s0log(p)/n ).我们还需要知道 1 / τ ^ j 2 1/\hat{\tau}_{j}^{2} 1/τ^j2的大小,希望它不要太大。定义row-sparsity为 s j : = ∣ { k = ̸ j : Θ j , k = ̸ 0 } ∣ s_{j} :=\left|\left\{k =\not j : \Theta_{j, k} =\not 0\right\}\right| sj:={k≠j:Θj,k≠0},这里 Θ : = Σ − 1 \Theta :=\Sigma^{-1} Θ:=Σ1。我们通过假设 max ⁡ j s j = o ( n / log ⁡ ( p ) ) \max _{j} s_{j}=o(n / \log (p)) maxjsj=o(n/log(p)) λ j ≍ log ⁡ ( p ) / n , for all j  . \lambda_{j}\asymp \sqrt{\log (p) / n},\text{for all j }. λjlog(p)/n ,for all j .以及我们上面所做的所有假设去限制它,有 max ⁡ j 1 / τ ^ j 2 = O P ( 1 ) \max _{j} 1 / \hat{\tau}_{j}^{2}=\mathcal{O}_{\mathbb{P}}(1) maxj1/τ^j2=OP(1),具体证明就不给了。详见Van de geer(2014)。这样,在这些假设下,若稀疏性满足 s 0 = o ( n / log ⁡ ( p ) ) s_{0}=o(\sqrt{n} / \log (p)) s0=o(n /log(p)),那么我们有 n ( b ^  Lasso  − β 0 ) = W + Δ W ∣ X ∼ N p ( 0 , σ ε 2 Ω ^ ) ∥ Δ ∥ ∞ = o P ( 1 ) . \begin{aligned} \sqrt{n}\left(\hat{b}_{\text { Lasso }}-\beta^{0}\right) &amp;=W+\Delta \\ W | \mathbf{X} &amp; \sim \mathcal{N}_{p}\left(0, \sigma_{\varepsilon}^{2} \hat{\Omega}\right) \\\|\Delta\|_{\infty} &amp;=o_{\mathbb{P}}(1) \end{aligned}. n (b^ Lasso β0)WXΔ=W+ΔNp(0,σε2Ω^)=oP(1).这里 ∥ Ω ^ − Σ − 1 ∥ ∞ = o P ( 1 ) , \left\|\hat{\Omega}-\Sigma^{-1}\right\|_{\infty}=o_{\mathbb{P}}(1), Ω^Σ1=oP(1), W = Θ ^  Lasso  X T ε / n . W=\hat{\Theta}_{\text { Lasso }} \mathbf{X}^{T} \varepsilon / \sqrt{n} . W=Θ^ Lasso XTε/n .最后说一下, Θ ^ \hat{\Theta} Θ^不一定要通过LASSO nodewise regression去找,也可以通过我们在学习笔记2中所讲的Square Root LASSO的方法去找,这样得到的是 Θ ^  Lasso \hat{\Theta}_{\sqrt{\text { Lasso}}} Θ^ Lasso ,实际上它具有更好的性质,可以自己试着用相同的方法证明一下。

参考文献

[1]Sara van de Geer, Peter Bhlmann, Yaacov Ritov, and Ruben Dezeure. On asymptotically optimal confidence regions and tests for high-dimensional models. The Annals of Statistics, 42(3):1166–1202, 06 2014. doi: 10.1214/14-AOS1221. URL http://dx.doi.org/10.1214/14-AOS1221.
[2] Sara Van De Geer, Estimation and Testing Under Sparsity, 2014.

  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值