压缩感知的尽头: 原子范数最小化

前言

在之前的博客中,我们介绍了包括正交匹配追踪OMP、近似消息传递GAMP 等常见的压缩感知算法。 抛开复杂度不谈,对于压缩感知问题, 哪个算法拥有最佳的性能, 无疑是让人感兴趣的话题。 那么目前可以给出答案了: 压缩感知的尽头, 就是 原子范数最小化算法。 而其能在一众算法中登顶的原因也很简单: 它既是拥有优良凸优化性质的算法, 又没有精度的限制。 简单而言, 如果说 OMP 等在有限码本上选取码字的算法为 On-grid 类型。 那么 原子范数最小化算法,就是在无穷精度的范围内进行搜索, 即 Gridless 类型。 本文参考自 Zai Yang 博士的书 Sparse Methods for Direction-of-Arrival Estimation 第六章节。 因为笔者也是初次学习这一算法, 因此这篇博客更多是对原文的翻译。 后续如有机会, 希望给出自己更深入浅出的理解。

问题建模

首先,我们考虑的是通信中常见的 DOA 问题。 当然 原子范数最小化算法显然并不局限于这一种应用。 这只是一个生动的例子。 对于 M M M 根接收天线而言, 接收数据可表示为:
Y = A ( f ) S + E Y=A(f) S+E Y=A(f)S+E
Y ∈ C M × L Y\in\mathbb{C}^{M\times L} YCM×L, 其中 L L L 代表接收时隙数, 也可以理解为观测次数。 A ( f ) = [ a ( f 1 ) , … , a ( f K ) ] ∈ C M × K \boldsymbol{A}(\boldsymbol{f})=\left[\boldsymbol{a}\left(f_{1}\right), \ldots, a\left(f_{K}\right)\right] \in \mathbb{C}^{M \times K} A(f)=[a(f1),,a(fK)]CM×K, 其每一列对应第 k k k 个源 (source) 的 DOA 对应的天线响应矢量, 其中 a ( f ) = [ 1 , e i 2 π f , … , e i 2 π ( M − 1 ) f ] T \boldsymbol{a}(f)=\left[1, e^{i 2 \pi f}, \ldots, e^{i 2 \pi(M-1) f}\right]^{T} a(f)=[1,ei2πf,,ei2π(M1)f]T, 这里 f = 1 2 cos ⁡ θ f=\frac{1}{2} \cos \theta f=21cosθ. E E E 是噪声, S ∈ C K × L S\in\mathbb{C}^{K\times L} SCK×L代表了这 K K K 个源在 L L L 个时隙的发射信号。

Toeplitz 矩阵的范德蒙德分解

在介绍原子范数之前,首先介绍一个非常有用的数学工具: 范德蒙德分解。 具体如下:

对于任意秩 r ≤ N r\le N rN 的半正定的Toeplitz矩阵 T ( u ) ∈ C N × N T(u)\in\mathbb{C}^{N\times N} T(u)CN×N, 有如下的 r r r-原子范德蒙德分解:
T = ∑ k = 1 r p k a ( f k ) a H ( f k ) = A ( f ) diag ⁡ ( p ) A H ( f ) , T=\sum_{k=1}^{r} p_{k} a\left(f_{k}\right) a^{H}\left(f_{k}\right)=A(f) \operatorname{diag}(p) A^{H}(f), T=k=1rpka(fk)aH(fk)=A(f)diag(p)AH(f),
r < N r<N r<N时, 该分解唯一 (unique)。

T ( u ) T(u) T(u) 代表以 u u u 作为矩阵的第一行, 然后其移位结果作为第二行…以此组成的Toeplitz矩阵。 原子范数的理论推导直接建立在这个分解之上。

DOA估计的一般框架

考虑 L = 1 L=1 L=1 即一次观测的简单场景, 表示为:
y = z + e y = z + e y=z+e
其中 z = A ( f ) s z=A(f)s z=A(f)s. 那么,我们一般可以以如下的优化问题为目标:
min ⁡ z M ( z ) , subject to  ∥ z − y ∥ 2 ≤ η \min _{z} \mathcal{M}(z) \text {, subject to }\left\|z-y\right\|_{2} \leq \eta zminM(z), subject to zy2η
其中 M ( z ) \mathcal{M}(z) M(z) 是选择的一种 指标 metric。 进一步地,通过引入惩罚系数,可将其改写为:
min ⁡ z λ M ( z ) + 1 2 ∥ z − y ∥ 2 2 \min _{z} \lambda \mathcal{M}(z)+\frac{1}{2}\left\|z-y\right\|_{2}^{2} zminλM(z)+21zy22

而本文要重点介绍的, 就是以 原子范数 ∥ z ∥ A \|z\|_{\mathcal{A}} zA 作为 M ( z ) \mathcal{M}(z) M(z) 的方法。

ℓ 0 \ell_0 0-原子范数

我们首先介绍原子集如下:
A = { a ( f , ϕ ) = a ( f ) ϕ : f ∈ T , ϕ ∈ C , ∣ ϕ ∣ = 1 } \mathcal{A}=\{a(f, \phi)=a(f) \phi: f \in \mathbb{T}, \phi \in \mathbb{C},|\phi|=1\} A={a(f,ϕ)=a(f)ϕ:fT,ϕC,ϕ=1}
这个集合可以理解为是类似于OMP方法中的字典, 但他是无限精度的, 因为 f f f 可以是任意实数。 ϕ \phi ϕ 是允许了一个初始相位的不同。 而根据 z = A ( f ) s z=A(f)s z=A(f)s, 显然 z z z 是该原子集中 k k k 个原子的线性组合。 ℓ 0 \ell_0 0-原子范数, 就是指能组成 z z z 的 最少所需原子数, 即:
∥ z ∥ A , 0 = inf ⁡ c k , f k , ϕ k { K : z = ∑ k = 1 K a ( f k , ϕ k ) c k , f k ∈ T , ∣ ϕ k ∣ = 1 , c k > 0 } = inf ⁡ f k , s k { K : z = ∑ k = 1 K a ( f k ) s k , f k ∈ T } \begin{aligned} \|z\|_{\mathcal{A}, 0} &=\inf _{c_{k}, f_{k}, \phi_{k}}\left\{\mathcal{K}: z=\sum_{k=1}^{\mathcal{K}} a\left(f_{k}, \phi_{k}\right) c_{k}, f_{k} \in \mathbb{T},\left|\phi_{k}\right|=1, c_{k}>0\right\} \\ &=\inf _{f_{k}, s_{k}}\left\{\mathcal{K}: z=\sum_{k=1}^{\mathcal{K}} a\left(f_{k}\right) s_{k}, f_{k} \in \mathbb{T}\right\} \end{aligned} zA,0=ck,fk,ϕkinf{K:z=k=1Ka(fk,ϕk)ck,fkT,ϕk=1,ck>0}=fk,skinf{K:z=k=1Ka(fk)sk,fkT}
因为我们的目的就是为了恢复出 A ( f ) A(f) A(f), 而 z z z可以写成无数种 A \mathcal{A} A 中原子线性组合的形式。 但只有对应所用原子数最少即对应最小 ℓ 0 \ell_0 0-原子范数 时, 此时组成 z z z 的原子才恰好对应待恢复的 A ( f ) A(f) A(f)

因此, DOA估计旨在恢复 A ( f ) A(f) A(f), 而这等价于最小化 z z z ℓ 0 \ell_0 0-原子范数, 写作 ∥ z ∥ A , 0 \|z\|_{\mathcal{A}, 0} zA,0.

ℓ 0 \ell_0 0-原子范数 与 范德蒙德分解

然而 如何对于 ∥ z ∥ A , 0 \|z\|_{\mathcal{A}, 0} zA,0 进行最小化,可以说是完全摸不着头脑。 这似乎比 ℓ 0 \ell_0 0 范数最小化更为抽象。 此时就是见证数学魅力的时刻。 我们考虑如下式子:
[ x z H z T ( u ) ] ≥ 0 \left[\begin{array}{cc} x & z^{H} \\ z & T(u) \end{array}\right] \geq 0 [xzzHT(u)]0
T ( u ) T(u) T(u) 的定义一如之前, 是一个由 u u u 得到的Teoplitz 矩阵。 x x x 则是一个待优化的变量。 这个约束隐含了如下的结论:

  • T ( u ) ≥ 0 T(u)\ge 0 T(u)0, 否则无法保证对于任何向量 y y y, 都有 y H [ y x z H z T ( u ) ] y ≥ 0 y^H\left[\begin{array}{cc}y x & z^{H} \\ z & T(u) \end{array}\right]y \ge 0 yH[yxzzHT(u)]y0
  • z z z 一定位于 T ( u ) T(u) T(u) 的列空间中。 这个证明也在后面的证明章节中给出了。

由于 T ( u ) ≥ 0 T(u)\ge 0 T(u)0, 因此 T ( u ) T(u) T(u) 是一个半正定矩阵, 即存在 范德蒙德分解
T = ∑ k = 1 r p k a ( f k ) a H ( f k ) = A ( f ) diag ⁡ ( p ) A H ( f ) , T=\sum_{k=1}^{r} p_{k} a\left(f_{k}\right) a^{H}\left(f_{k}\right)=A(f) \operatorname{diag}(p) A^{H}(f), T=k=1rpka(fk)aH(fk)=A(f)diag(p)AH(f),
其中 r = r a n k ( T ( u ) ) r=rank(T(u)) r=rank(T(u))而由于 z z z 一定位于 T ( u ) T(u) T(u) 的列空间中, 那么 z z z 必能写为 a ( f k ) a\left(f_{k}\right) a(fk) 的线性组合! 这一点至关重要。 因为这引出了如下的结论:

最小化 ℓ 0 \ell_0 0-原子范数等价于求解如下问题:
min ⁡ x , u rank ⁡ ( T ( u ) ) ,  subject to  [ x z H z T ( u ) ] ≥ 0. \min _{x, u} \operatorname{rank}(\boldsymbol{T}(\boldsymbol{u})), \text { subject to }\left[\begin{array}{cc} x & z^{H} \\ z & T(u) \end{array}\right] \geq 0. x,uminrank(T(u)), subject to [xzzHT(u)]0.

由于 z z z T ( u ) T(u) T(u) 范德蒙德分解所得的 r r r个原子的线性组合。 当我们找到秩最小的 r r r 时,也就找到了组成 z z z 所需的最少原子数。 也就对应 z z z ℓ 0 \ell_0 0-原子范数最小化。 而对于这个转化后的问题, 如果 u u u 被解出, 那么 T ( u ) T(u) T(u) 也能得到, 那么对 T ( u ) T(u) T(u) 进行范德蒙德分解, 也就获得了 A ( f ) A(f) A(f)。 然而美中不足的是, 这个目标函数并非凸函数, 也无法轻易求解。

原子范数

ℓ 0 \ell_0 0-原子范数进行凸松弛, 得到的就是原子范数。 其定义如下:
∥ z ∥ A = inf ⁡ f k , s k { ∑ k ∣ s k ∣ : z = ∑ k a ( f k ) s k , f k ∈ T } . \begin{aligned} \|z\|_{\mathcal{A}} =\inf _{f_{k}, s_{k}}\left\{\sum_{k}\left|s_{k}\right|: z=\sum_{k} a\left(f_{k}\right) s_{k}, f_{k} \in \mathbb{T}\right\} . \end{aligned} zA=fk,skinf{ksk:z=ka(fk)sk,fkT}.
ℓ 0 \ell_0 0-原子范数 的定义进行比较, 发现这和将传统的 ℓ 0 \ell_0 0-范数 放缩为 ℓ 1 \ell_1 1-范数 如出一辙。 然而, 如何最小化 ∥ z ∥ A \|z\|_{\mathcal{A}} zA 看上去也非常困难。 此时, 再度利用 范德蒙德分解, 我们有如下精彩的结论:

最小化原子范数等价于求解如下问题:
min ⁡ x , u 1 2 x + 1 2 u 1 ,  subject to  [ x z H z T ( u ) ] ≥ 0. \min _{x, u} \frac{1}{2} x+\frac{1}{2} u_{1}, \text { subject to }\left[\begin{array}{cc} x & z^{H} \\ z & T(u) \end{array}\right] \geq 0. x,umin21x+21u1, subject to [xzzHT(u)]0.

  • 注意到,这是一个凸问题。 首先目标函数显然是变量的仿射函数, 因此为凸(既凸且凹)。 限制条件也可以写为 变量的仿射函数形式。 因此也满足凸问题的限制条件( f ( x ) ≤ 0 f(x)\le 0 f(x)0, f ( x ) f(x) f(x)为凸函数)。 ( X ≥ 0 X\ge 0 X0 可以等价为 y H X y ≥ 0 , ∀ y y^HXy\ge 0, \forall y yHXy0,y, 而对于每个 y y y, 都是关于 X X X 的仿射变换。)
  • T ( u ) T(u) T(u) 的对角元素都是 u 1 u_1 u1, 那么事实上 u 1 u_1 u1 就是 t r ( T ( u ) ) \mathrm{tr}(T(u)) tr(T(u))! 而后者又被称为核函数, 也是 r a n k ( T ( u ) ) rank(T(u)) rank(T(u))的经典凸松弛。 这从另一个角度解释了 原子范数最小化 是 ℓ 0 \ell_0 0原子范数最小化的凸松弛

至此, 压缩感知问题被转化为了一个可以由CVX进行直接求解的凸问题! 还剩的最后一块拼图:即为何原子范数可以等效为这个凸问题, 仍照例,放在下面的证明章节中。

多维原子范数

将原子范数拓展到多维是十分必要的, 因为通信中DOA估计大多是多次观测。 然而其结论大体相似。 此时,变量变为二维矩阵 Z Z Z, 而其 ℓ 0 \ell_0 0-原子范数被定义为:
∥ Z ∥ A , 0 = inf ⁡ c k , f k , ϕ k { K : Z = ∑ k = 1 K a ( f k , ϕ k ) c k , f k ∈ T , ∥ ϕ k ∥ 2 = 1 , c k > 0 } = inf ⁡ f k , s k { K : Z = ∑ k = 1 K a ( f k ) s k , f k ∈ T } \begin{aligned} \|Z\|_{\mathcal{A}, 0} &=\inf _{c_{k}, f_{k}, \phi_{k}}\left\{\mathcal{K}: Z=\sum_{k=1}^{\mathcal{K}} a\left(f_{k}, \phi_{k}\right) c_{k}, f_{k} \in \mathbb{T},\left\|\phi_{k}\right\|_{2}=1, c_{k}>0\right\} \\ &=\inf _{f_{k}, s_{k}}\left\{\mathcal{K}: Z=\sum_{k=1}^{\mathcal{K}} a\left(f_{k}\right) s_{k}, f_{k} \in \mathbb{T}\right\} \end{aligned} ZA,0=ck,fk,ϕkinf{K:Z=k=1Ka(fk,ϕk)ck,fkT,ϕk2=1,ck>0}=fk,skinf{K:Z=k=1Ka(fk)sk,fkT}
其中,
a ( f k , ϕ k ) = a ( f k ) ϕ k : f k ∈ T , ϕ k ∈ C 1 × L , ∥ ϕ k ∥ 2 = 1 a\left(f_{k}, \phi_{k}\right)=a\left(f_{k}\right) \phi_{k}: f_{k} \in \mathbb{T}, \phi_{k} \in \mathbb{C}^{1 \times L},\left\|\phi_{k}\right\|_{2}=1 a(fk,ϕk)=a(fk)ϕk:fkT,ϕkC1×L,ϕk2=1
注意到, 这和向量 z z z 的 原子范数的最大区别在于标量 ϕ k \phi_k ϕk ( s k s_k sk)变为了行向量。 类似的, 对其的凸松弛的原子范数,定义为:
∥ Z ∥ A = inf ⁡ { t > 0 : Z ∈ tconv ⁡ ( A ) } = inf ⁡ c k , f k , ϕ k { ∑ k c k : Z = ∑ k a ( f k , ϕ k ) c k , f k ∈ T , ∥ ϕ k ∥ 2 = 1 , c k > 0 } = inf ⁡ f k , s k { ∑ k ∥ s k ∥ 2 : Z = ∑ k a ( f k ) s k , f k ∈ T } \begin{aligned} \|Z\|_{\mathcal{A}} &=\inf \{t>0: Z \in \operatorname{tconv}(\mathcal{A})\} \\ &=\inf _{c_{k}, f_{k}, \phi_{k}}\left\{\sum_{k} c_{k}: Z=\sum_{k} a\left(f_{k}, \phi_{k}\right) c_{k}, f_{k} \in \mathbb{T},\left\|\phi_{k}\right\|_{2}=1, c_{k}>0\right\} \\ &=\inf _{f_{k}, s_{k}}\left\{\sum_{k}\left\|s_{k}\right\|_{2}: Z=\sum_{k} a\left(f_{k}\right) s_{k}, f_{k} \in \mathbb{T}\right\} \end{aligned} ZA=inf{t>0:Ztconv(A)}=ck,fk,ϕkinf{kck:Z=ka(fk,ϕk)ck,fkT,ϕk2=1,ck>0}=fk,skinf{ksk2:Z=ka(fk)sk,fkT}
而对其的最小化, 仍可以等价为如下SDP问题:
min ⁡ X , u 1 2 N [ Tr ⁡ ( X ) + Tr ⁡ ( T ( u ) ) ] ,  subject to  [ X Z H Z T ( u ) ] ≥ 0 \min _{X, u} \frac{1}{2 \sqrt{N}}[\operatorname{Tr}(\boldsymbol{X})+\operatorname{Tr}(\boldsymbol{T}(\boldsymbol{u}))], \text { subject to }\left[\begin{array}{cc} X & Z^{H} \\ Z & T(u) \end{array}\right] \geq 0 X,umin2N 1[Tr(X)+Tr(T(u))], subject to [XZZHT(u)]0
照例, 其证明放在后续证明章节。

证明

范德蒙德分解的证明

由于 T ⪰ 0 T\succeq0 T0 (半正定的要求), 因此有 T = V V H T=VV^H T=VVH (可以通过特征分解得到), 其中 V ∈ C N × r V\in\mathbb{C}^{N\times r} VCN×r。 然后,根据Toeplitz矩阵的结构。 如果我们用 V − N V_{-N} VN V − 1 V_{-1} V1 分别代表 V V V 矩阵去掉最后一行和第一行的结果, 根据简单的块矩阵乘法, 我们可以发现, V − N V − N H = V − 1 V − 1 H \boldsymbol{V}_{-N} \boldsymbol{V}_{-N}^{H}=\boldsymbol{V}_{-1} \boldsymbol{V}_{-1}^{H} VNVNH=V1V1H。 那么,当 N − 1 ≥ r N-1\ge r N1r 时, 必存在正交矩阵 Q Q Q, 使得 V − 1 = V − N Q \boldsymbol{V}_{-1}=\boldsymbol{V}_{-N} \boldsymbol{Q} V1=VNQ。 这一结论的证明可见下节, 为不影响思路的进展我们先继续。 令 V j V_j Vj 代表 V V V 的第 j j j 行, 可知: V j = V 1 Q j − 1 , j = 2 , … , N \boldsymbol{V}_{j}=\boldsymbol{V}_{1} Q^{j-1}, j=2, \ldots, N Vj=V1Qj1,j=2,,N 因此有:
u j = V 1 Q 1 − j V 1 H , j = 1 , … , N (1) u_{j}=\boldsymbol{V}_{1} Q^{1-j} \boldsymbol{V}_{1}^{H}, \quad j=1, \ldots, N \tag{1} uj=V1Q1jV1H,j=1,,N(1)
其中 u j u_j uj u u u 的 第 j j j 个 元素。 对 Q Q Q 进行特征分解, 有:
Q = Q ~ diag ⁡ ( z 1 , … , z r ) Q ~ H Q=\widetilde{Q} \operatorname{diag}\left(z_{1}, \ldots, z_{r}\right) \widetilde{Q}^{H} Q=Q diag(z1,,zr)Q H
注意到, 由于 Q Q Q 是正交矩阵, 其特征值 z k z_k zk 必满足 z k ∗ z k = 1 z_k^*z_k=1 zkzk=1。 可以显然地由 Q Q H = I QQ^H=I QQH=I得证。 因此, 我们可以把 z k z_k zk 写为 z k = e i 2 π f k z_{k}=e^{i 2 \pi f_{k}} zk=ei2πfk, 因为它必定是一个恒模的复数, 所以一定存在这样的 f k f_k fk。 再注意到: Q N = Q ~ diag ⁡ ( z 1 , … , z r ) N Q ~ H Q^N=\widetilde{Q} \operatorname{diag}\left(z_{1}, \ldots, z_{r}\right)^N \widetilde{Q}^{H} QN=Q diag(z1,,zr)NQ H 对于任意正整数 N N N, 因为 Q ~ \widetilde{Q} Q 也是正交阵。 我们令 p k = ∣ V 1 Q ~ : k ∣ 2 p_{k}=\left|\boldsymbol{V}_{1} \widetilde{\boldsymbol{Q}}_{: k}\right|^{2} pk=V1Q :k2, 代入 (1) 中, 得到:
u j = ∑ k = 1 r p k e − i 2 π ( j − 1 ) f k u_{j}=\sum_{k=1}^{r} p_{k} e^{-i 2 \pi(j-1) f_{k}} uj=k=1rpkei2π(j1)fk
而这, 就对应了范德蒙德分解。 证毕。
至此,还可以发现, f k f_k fk 必须是不同的, 否则 A ( f ) A(f) A(f) 中将有相同的列, 那么也无法满足 r a n k ( T ) = r rank(T)=r rank(T)=r的条件了。
我们现已证明了 r ≤ N − 1 r\le N-1 rN1 场景下的范德蒙德分解的可行性。 我们再证明其分解的唯一性。
通过反证法, 若存在 另一组分解 T = A ( f ′ ) P ′ A H ( f ′ ) T=A\left(f^{\prime}\right) P^{\prime} A^{H}\left(f^{\prime}\right) T=A(f)PAH(f), 即:
A ( f ′ ) P ′ A H ( f ′ ) = A ( f ) P A H ( f ) \boldsymbol{A}\left(\boldsymbol{f}^{\prime}\right) \boldsymbol{P}^{\prime} \boldsymbol{A}^{H}\left(\boldsymbol{f}^{\prime}\right)=\boldsymbol{A}(\boldsymbol{f}) \boldsymbol{P A}^{H}(\boldsymbol{f}) A(f)PAH(f)=A(f)PAH(f)
类似地可证明, 存在 A ( f ′ ) P ′ 1 2 = A ( f ) P 1 2 Q ′ A\left(f^{\prime}\right) P^{\prime \frac{1}{2}}=A(f) P^{\frac{1}{2}} Q^{\prime} A(f)P21=A(f)P21Q, 其中 Q ′ Q^\prime Q 为正交矩阵。 因此
A ( f ′ ) = A ( f ) P 1 2 Q ′ P ′ − 1 2 \boldsymbol{A}\left(\boldsymbol{f}^{\prime}\right)=\boldsymbol{A}(\boldsymbol{f}) \boldsymbol{P}^{\frac{1}{2}} Q^{\prime} \boldsymbol{P}^{\prime-\frac{1}{2}} A(f)=A(f)P21QP21
也就是说, a ( f j ′ ) a\left(f_{j}^{\prime}\right) a(fj) a ( f j ) a\left(f_{j}\right) a(fj)的线性组合。 此时,注意到一个性质: 任意 N N N a ( f k ) a\left(f_{k}\right) a(fk)之间线性独立。 也就是说, 因为 r ≤ N − 1 r\le N-1 rN1, 因此 a ( f j ′ ) a(f_j^\prime) a(fj) 可以和 r r r a ( f j ) a(f_j) a(fj) 组成不超过 N N N a a a,那么他们之间必定相互线性独立, 即前者不可能写为后者的线性组合。 因此矛盾。

最后,对于 r = N r=N r=N的情况下, 范德蒙德分解成立但不唯一。 证明思路类似,这里略去。

正交矩阵结论的证明

上一节的证明中, 用有这个结论: X X H = Y Y H \boldsymbol{X} \boldsymbol{X}^{H}=\boldsymbol{Y} \boldsymbol{Y}^{H} XXH=YYH 其中 X , Y ∈ C m , n X,Y\in\mathbb{C}^{m,n} X,YCm,n, m ≥ n m\ge n mn。 那么, 必存在正交矩阵 Q Q Q, 使得 X = Y Q \boldsymbol{X}=\boldsymbol{Y} \boldsymbol{Q} X=YQ

首先我们有:
X = Y Y H X ( X H X ) − 1 X = YY^HX(X^HX)^{-1} X=YYHX(XHX)1
Q = Y H X ( X H X ) − 1 Q=Y^HX(X^HX)^{-1} Q=YHX(XHX)1, 即 X = Y Q X=YQ X=YQ。 则有:
Y Q Q H Y H = Y Y H ⇒ Y Q Q H = Y ⇒ Q Q H = I YQQ^HY^H=YY^H\Rightarrow YQQ^H=Y\Rightarrow QQ^H=I YQQHYH=YYHYQQH=YQQH=I
因此 Q Q Q 为正交矩阵.

z z z存在于列空间的证明

[ x z H z T ( u ) ] ≥ 0 \left[\begin{array}{cc} x & z^{H} \\ z & T(u) \end{array}\right] \geq 0 [xzzHT(u)]0成立时, z z z 位于 T ( u ) T(u) T(u)的列空间中。

T ( u ) T(u) T(u) 满秩时, 直接成立。 当 T ( u ) T(u) T(u) 不满秩时,

注意到:
[ x z H z T ( u ) ] ≥ 0    ⟺    [ t y ] H [ x z H z T ( u ) ] [ t y ] ≥ 0 , ∀ t , y ⇒ t H x t + y H z t + t H z H y + y H T ( u ) y ≥ 0 \left[\begin{array}{cc} x & z^{H} \\ z & T(u) \end{array}\right] \geq 0\iff [t \quad y]^H\left[\begin{array}{cc} x & z^{H} \\ z & T(u) \end{array}\right]\left[\begin{array}{l} t \\ y \end{array}\right]\ge 0,\quad\forall t,y\\ \Rightarrow t^Hxt + y^Hzt+t^Hz^Hy+y^HT(u)y\ge 0 [xzzHT(u)]0[ty]H[xzzHT(u)][ty]0,t,ytHxt+yHzt+tHzHy+yHT(u)y0

此时, 取 y y y 位于 T ( u ) T(u) T(u) 的零空间中。 则上式进一步变为:
t ∗ x t + y H z t + t ∗ z H y ≥ 0 t^*xt + y^Hzt+t^*z^Hy\ge 0 txt+yHzt+tzHy0
z z z不位于 T ( u ) T(u) T(u)的列空间中, 即 a = y H z ≠ 0 a=y^Hz\neq 0 a=yHz=0, 则:
t ∗ x t + a t + t H a ∗ ≥ 0 t^*xt + at+t^Ha^*\ge 0 txt+at+tHa0
t = − a ∗ x t=-\frac{a^*}{x} t=xa,有:
a a ∗ x ∗ − a a ∗ x ∗ − a a ∗ x ∗ ≥ 0 \frac{aa^*}{x^*} - \frac{aa^*}{x^*} -\frac{aa^*}{x^*} \ge0 xaaxaaxaa0
由于 x x x必为非负实数(取 t = 1 , y = 0 t=1, y=0 t=1,y=0), 所以上式显然不成立, 矛盾。
得证。

原子范数最小化的等价性证明

记 等价凸问题的目标函数 F = 1 2 x + 1 2 u 1 F=\frac{1}{2} x+\frac{1}{2} u_{1} F=21x+21u1, 先证明: F ≤ ∥ z ∥ A F \leq\|z\|_{\mathcal{A}} FzA。 取 z = ∑ k c k a ( f k , ϕ k ) = ∑ k a ( f k ) s k z=\sum_{k} c_{k} a\left(f_{k}, \phi_{k}\right)=\sum_{k} a\left(f_{k}\right) s_{k} z=kcka(fk,ϕk)=ka(fk)sk, 令 T ( u ) = ∑ k c k a ( f k ) a H ( f k ) \boldsymbol{T}(\boldsymbol{u})=\sum_{k} c_{k} \boldsymbol{a}\left(f_{k}\right) \boldsymbol{a}^{H}\left(f_{k}\right) T(u)=kcka(fk)aH(fk) x = ∑ k c k x=\sum_{k} c_{k} x=kck,有:
[ x z H z T ] = ∑ k c k [ ϕ k ∗ a ( f k ) ] [ ϕ k ∗ a ( f k ) ] H ≥ 0 \left[\begin{array}{cc} x & z^{H} \\ z & T \end{array}\right]=\sum_{k} c_{k}\left[\begin{array}{c} \phi_{k}^{*} \\ a\left(f_{k}\right) \end{array}\right]\left[\begin{array}{c} \phi_{k}^{*} \\ a\left(f_{k}\right) \end{array}\right]^{H} \geq 0 [xzzHT]=kck[ϕka(fk)][ϕka(fk)]H0
因此 T T T x x x 是一组可行解。 那么其必然不小于最优解。而这组可行解对应的目标函数为:
1 2 x + 1 2 u 1 = ∑ k c k \frac{1}{2} x+\frac{1}{2} u_{1}=\sum_{k} c_{k} 21x+21u1=kck
因此, F ⋆ ≤ ∥ z ∥ A F^\star \leq\|z\|_{\mathcal{A}} FzA
再证明 F ⋆ ≥ ∥ z ∥ A F^\star \geq\|z\|_{\mathcal{A}} FzA。 设凸问题的最优解为 ( x ^ , u ^ ) (\widehat{x}, \widehat{u}) (x ,u ), 对 T ( u ^ ) T(\widehat{u}) T(u ) 进行范德蒙德分解, 得到参数 ( r ^ , p ^ k , f ^ k ) \left(\widehat{r}, \widehat{p}_{k}, \widehat{f}_{k}\right) (r ,p k,f k)。 根据之前的分析, z z z 必然在 T ( u ^ ) T(\widehat{u}) T(u ) 的列空间中, 即:
z = ∑ k = 1 r ^ c ^ k a ( f ^ k , ϕ ^ k ) = ∑ k = 1 r ^ a ( f ^ k ) s ^ k z=\sum_{k=1}^{\widehat{r}} \widehat{c}_{k} a\left(\widehat{f}_{k}, \widehat{\phi}_{k}\right)=\sum_{k=1}^{\widehat{r}} a\left(\widehat{f}_{k}\right) \widehat{s}_{k} z=k=1r c ka(f k,ϕ k)=k=1r a(f k)s k
进一步地, 根据Schur补条件 https://zhuyulab.blog.csdn.net/article/details/121942523 [ x z H z T ( u ) ] ≥ 0 \left[\begin{array}{cc} x & z^{H} \\ z & T(u) \end{array}\right] \geq 0 [xzzHT(u)]0 等价于:
x ^ ≥ z H [ T ( u ^ ) ] † z = ∑ k = 1 r ^ c ^ k 2 p ^ k \widehat{x} \geq z^{H}[\boldsymbol{T}(\widehat{\boldsymbol{u}})]^{\dagger} \boldsymbol{z}=\sum_{k=1}^{\widehat{r}} \frac{\widehat{c}_{k}^{2}}{\widehat{p}_{k}} x zH[T(u )]z=k=1r p kc k2
u ^ 1 = ∑ k = 1 r ^ p ^ k \widehat{u}_{1}=\sum_{k=1}^{\widehat{r}} \widehat{p}_{k} u 1=k=1r p k, 因此
F = 1 2 x ^ + 1 2 u ^ 1 ≥ 1 2 ∑ k c ^ k 2 p ^ k + 1 2 ∑ k p ^ k ≥ ∑ k c ^ k ≥ ∥ z ∥ A . \begin{aligned} F &=\frac{1}{2} \widehat{x}+\frac{1}{2} \widehat{u}_{1} \\ & \geq \frac{1}{2} \sum_{k} \frac{\widehat{c}_{k}^{2}}{\widehat{p}_{k}}+\frac{1}{2} \sum_{k} \widehat{p}_{k} \\ & \geq \sum_{k} \widehat{c}_{k} \\ & \geq\|z\|_{\mathcal{A}} . \end{aligned} F=21x +21u 121kp kc k2+21kp kkc kzA.
第一个不等号来自于Schur补条件。 第二个不等号来自于 1 x + x \frac{1}{x}+x x1+x的最大化问题。第三个不等式来自于 ∥ z ∥ A \|z\|_{\mathcal{A}} zA的定义, 即所有线性分解中, ∑ k c k \sum_{k} {c}_{k} kck的最小值。
至此, 得证, F ⋆ = ∥ z ∥ A F^\star=\|z\|_{\mathcal{A}} F=zA.

多维原子范数最小化的等价性证明

记 等价凸问题的目标函数 F = 1 2 N [ Tr ⁡ ( X ) + Tr ⁡ ( T ( u ) ) ] F=\frac{1}{2 \sqrt{N}}[\operatorname{Tr}(\boldsymbol{X})+\operatorname{Tr}(\boldsymbol{T}(\boldsymbol{u}))] F=2N 1[Tr(X)+Tr(T(u))]。 取 z = ∑ k c k a ( f k , ϕ k ) = ∑ k a ( f k ) s k z=\sum_{k} c_{k} a\left(f_{k}, \phi_{k}\right)=\sum_{k} a\left(f_{k}\right) s_{k} z=kcka(fk,ϕk)=ka(fk)sk, 令 T ( u ) = 1 N ∑ k c k a ( f k ) a H ( f k ) \boldsymbol{T}(\boldsymbol{u})=\frac{1}{\sqrt{N}}\sum_{k} c_{k} \boldsymbol{a}\left(f_{k}\right) \boldsymbol{a}^{H}\left(f_{k}\right) T(u)=N 1kcka(fk)aH(fk) X = N ∑ k c k ϕ k H ϕ k X=\sqrt{N}\sum_{k} c_{k}\phi_k^H\phi_k X=N kckϕkHϕk,有:
[ x z H z T ] = ∑ k c k [ N 1 4 ϕ k H N − 1 4 a ( f k ) ] [ N 1 4 ϕ k H N − 1 4 a ( f k ) ] H ≥ 0 \left[\begin{array}{cc} x & z^{H} \\ z & T \end{array}\right]=\sum_{k} c_{k}\left[\begin{array}{c} N^{\frac{1}{4}}\phi_{k}^{H} \\ N^{-\frac{1}{4}}a\left(f_{k}\right) \end{array}\right]\left[\begin{array}{c} N^{\frac{1}{4}}\phi_{k}^{H} \\ N^{-\frac{1}{4}}a\left(f_{k}\right) \end{array}\right]^{H} \geq 0 [xzzHT]=kck[N41ϕkHN41a(fk)][N41ϕkHN41a(fk)]H0
因此 T T T X X X 是一组可行解。 那么其必然不小于最优解。根据定义, 有 ϕ k ϕ k H = 1 \phi_k\phi_k^H=1 ϕkϕkH=1, 那么, 这组可行解对应的目标函数为:
F = 1 2 N [ Tr ⁡ ( X ) + Tr ⁡ ( T ( u ) ) ] = ∑ k c k = ∥ z ∥ A F=\frac{1}{2 \sqrt{N}}[\operatorname{Tr}(\boldsymbol{X})+\operatorname{Tr}(\boldsymbol{T}(\boldsymbol{u}))]=\sum_k c_k=\|z\|_{\mathcal{A}} F=2N 1[Tr(X)+Tr(T(u))]=kck=zA
因此, F ⋆ ≤ ∥ z ∥ A F^\star \leq\|z\|_{\mathcal{A}} FzA
再证明 F ⋆ ≥ ∥ z ∥ A F^\star \geq\|z\|_{\mathcal{A}} FzA。 设凸问题的最优解为 ( X ^ , T ^ ) (\widehat{X}, \widehat{T}) (X ,T ), 对 T ^ \widehat{T} T 进行范德蒙德分解, 得到参数 ( r ^ , p ^ k , f ^ k ) \left(\widehat{r}, \widehat{p}_{k}, \widehat{f}_{k}\right) (r ,p k,f k)。 根据之前的分析, Z Z Z 必然在 T ^ \widehat{T} T 的列空间中, 即:
Z = ∑ k = 1 r ^ c ^ k a ( f ^ k , ϕ ^ k ) = ∑ k = 1 r ^ a ( f ^ k ) s ^ k Z=\sum_{k=1}^{\widehat{r}} \widehat{c}_{k} a\left(\widehat{f}_{k}, \widehat{\phi}_{k}\right)=\sum_{k=1}^{\widehat{r}} a\left(\widehat{f}_{k}\right) \widehat{s}_{k} Z=k=1r c ka(f k,ϕ k)=k=1r a(f k)s k
进一步地, 根据Schur补条件 https://zhuyulab.blog.csdn.net/article/details/121942523 [ X Z H Z T ] ≥ 0 \left[\begin{array}{cc} X & Z^{H} \\ Z & T \end{array}\right] \geq 0 [XZZHT]0 等价于:
X ^ − Z H T ^ † Z ≥ 0 \widehat{X}- Z^{H}\widehat{T}^{\dagger} \boldsymbol{Z}\ge 0\\ X ZHT Z0
而根据半正定矩阵的定义, 其特征值均非负。 因此一定有:
t r ( X ^ − Z H T ^ † Z ) ≥ 0 ⇒ t r ( X ^ ) ≥ t r ( Z H T ^ † Z ) = ∑ k = 1 r ^ c ^ k 2 p ^ k \mathrm{tr}(\widehat{X}- Z^{H}\widehat{T}^{\dagger} \boldsymbol{Z}) \ge 0\Rightarrow\mathrm{tr}(\widehat{X})\ge \mathrm{tr}(Z^{H}\widehat{T}^{\dagger} \boldsymbol{Z})=\sum_{k=1}^{\widehat{r}} \frac{\widehat{c}_{k}^{2}}{\widehat{p}_{k}} tr(X ZHT Z)0tr(X )tr(ZHT Z)=k=1r p kc k2
t r ( T ^ ) = N ∑ k = 1 r ^ p ^ k \mathrm{tr}(\widehat{T})=N\sum_{k=1}^{\widehat{r}} \widehat{p}_{k} tr(T )=Nk=1r p k, 因此
F = 1 2 N [ Tr ⁡ ( X ) + Tr ⁡ ( T ( u ) ) ] ≥ 1 2 N [ ∑ k c ^ k 2 p ^ k + N ∑ k p ^ k ] ≥ ∑ k c ^ k ≥ ∥ Z ∥ A . \begin{aligned} F &=\frac{1}{2 \sqrt{N}}[\operatorname{Tr}(\boldsymbol{X})+\operatorname{Tr}(\boldsymbol{T}(\boldsymbol{u}))] \\ & \geq \frac{1}{2 \sqrt{N}}[\sum_{k} \frac{\widehat{c}_{k}^{2}}{\widehat{p}_{k}}+N \sum_{k} \widehat{p}_{k}] \\ & \geq \sum_{k} \widehat{c}_{k} \\ & \geq\|Z\|_{\mathcal{A}} . \end{aligned} F=2N 1[Tr(X)+Tr(T(u))]2N 1[kp kc k2+Nkp k]kc kZA.
第一个不等号来自于Schur补条件。 第二个不等号来自于 1 x + x \frac{1}{x}+x x1+x的最大化问题。第三个不等式来自于 ∥ z ∥ A \|z\|_{\mathcal{A}} zA的定义, 即所有线性分解中, ∑ k c k \sum_{k} {c}_{k} kck的最小值。
至此, 得证, F ⋆ = ∥ Z ∥ A F^\star=\|Z\|_{\mathcal{A}} F=ZA.

结语

本文旨在先介绍原子范数的中心思想, 对其的具体使用和相关代码, 留待后续的博客进行介绍。

评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

B417科研笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值