l q l_q lq 范数的理论性质
预备知识
l q l_q lq 范数介绍
实现稀疏结构的 l q l_q lq 范数形式为:
∥ β ∥ q : = ( ∑ i = 1 n ∣ β i ∣ q ) 1 / q . \|\beta\|_{q}:=\left(\sum_{i=1}^{n}\left|\beta_{i}\right|^{q}\right)^{1 / q}. ∥β∥q:=(i=1∑n∣βi∣q)1/q.
l q l_q lq 正则化问题
同lasso一样,我们考虑以下两种类型的 l q l_q lq 正则化问题:
-
约束形式的 l q l_q lq 正则化问题
min ∥ β ∥ q s.t. ∥ y − X β ∥ 2 ≤ ϵ . \min \|\beta\|_{q} \quad \text { s.t. } \quad\|y-X \beta\|_{2} \leq \epsilon. min∥β∥q s.t. ∥y−Xβ∥2≤ϵ. -
拉格朗日形式的 l q l_q lq 正则化问题
min 1 2 m ∥ y − X β ∥ 2 2 + λ ∥ β ∥ q q . \min \frac{1}{2 m}\|y-X \beta\|_{2}^{2}+\lambda\|\beta\|_{q}^{q}. min2m1∥y−Xβ∥22+λ∥β∥qq.
REC受限特征值条件
Lasso中也有类似的条件,用于建立预测误差与估计误差之间的关系,如受限特征值条件及受限等距性质等。对设计矩阵 X X X, 1 ≤ s ≤ t ≤ n 1 \leq s \leq t \leq n 1≤s≤t≤n 以及 s + t ≤ n s+t \leq n s+t≤n 有:
ϕ q ( s , t , a , X ) : = min { ∥ X δ ∥ 2 ∥ δ J ∥ 2 : ∣ J ∣ ≤ s , ∥ δ J c ∥ q q ≤ a ∥ δ J ∥ q q } . \phi_{q}(s, t, a, X):=\min \left\{\frac{\|X \delta\|_{2}}{\left\|\delta_{J}\right\|_{2}}:|J| \leq s,\left\|\delta_{J^{c}}\right\|_{q}^{q} \leq a\left\|\delta_{J}\right\|_{q}^{q}\right\}. ϕq(s,t,a,X):=min{
∥δJ∥2∥Xδ∥2:∣J∣≤s,∥δJc∥qq≤a∥δJ∥qq}.
其中, J J J 是 β \beta β 的支撑集。
一些有用的引理
为了使证明思路更清晰,我们将最终重要定理的某些部分拆成几个小的引理,用于辅助证明。
引理1:对 n n n 维向量 α \alpha α, β \beta β,以下关系成立:
∥ β ∥ q 2 ≤ ∥ β ∥ q 1 ≤ n 1 q 1 − 1 q 2 ∥ β ∥ q 2 for any 0 < q 1 ≤ q 2 < + ∞ , \|\beta\|_{q_{2}} \leq\|\beta\|_{q_{1}} \leq n^{\frac{1}{q_{1}}-\frac{1}{q_{2}}}\|\beta\|_{q_{2}} \quad \text { for any } 0<q_{1} \leq q_{2}<+\infty, ∥β∥q2≤∥β∥q1≤nq11−q21∥β∥q2 for any 0<q1≤q2<+∞,
∥ α ∥ q q − ∥ β ∥ q q ≤ ∥ α + β ∥ q q ≤ ∥ α ∥ q q + ∥ β ∥ q q for any 0 < q ≤ 1. \|\alpha\|_{q}^{q}-\|\beta\|_{q}^{q} \leq\|\alpha+\beta\|_{q}^{q} \leq\|\alpha\|_{q}^{q}+\|\beta\|_{q}^{q} \quad \text { for any } 0<q \leq 1. ∥α∥qq−∥β∥qq≤∥α+β∥qq≤∥α∥qq+∥β∥qq for any 0<q≤1.
引理2:令 β ^ \hat{\beta} β^ 为拉格朗日形式正则化问题的最优解,则
1 2 m ∥ X β ∗ − X β ^ ∥ 2 2 ≤ λ ∥ β ∗ ∥ q q − λ ∥ r β ^ ∥ q q + 1 m ∥ β ^ − β ∗ ∥ 1 ∥ X ⊤ e ∥ ∞ . \frac{1}{2 m}\left\|X \beta^{*}-X \hat{\beta}\right\|_{2}^{2} \leq \lambda\left\|\beta^{*}\right\|_{q}^{q}-\lambda\left\|r\hat{\beta}\right\|_{q}^{q}+\frac{1}{m}\left\|\hat{\beta}-\beta^{*}\right\|_{1}\left\|X^{\top} e\right\|_{\infty}. 2m1 Xβ∗−Xβ^ 22≤λ∥β∗∥qq−