0 前情提要
0.1 数学模型和总体框图如下
给定输入信号 X ∈ R N × 1 \boldsymbol{X} \in \mathbb{R}^{N\times1} X∈RN×1,最终想要得到压缩信号 A ∈ R M × 1 \boldsymbol{A} \in \mathbb{R}^{M\times1} A∈RM×1, K < < N K<<N K<<N
0.2 压缩过程图例分析如下
整个压缩过程也可以被称为感知过程
A
=
Φ
X
=
Φ
Ψ
Y
=
Θ
Y
\boldsymbol{A} =\boldsymbol{\Phi}\boldsymbol{X} = \boldsymbol{\Phi}\boldsymbol{\Psi} \boldsymbol{Y} = \boldsymbol{\Theta}\boldsymbol{Y}
A=ΦX=ΦΨY=ΘY
Θ \boldsymbol{\Theta} Θ即为感知过程的核心命名为感知矩阵
符号 | 含义 | 维度 | 属性 |
---|---|---|---|
X \boldsymbol{X} X | 输入信号;待压缩信号 | R N × 1 \mathbb{R}^{N\times1} RN×1 | 未知,需要恢复 |
Φ \boldsymbol{\Phi} Φ | 观测矩阵;测量矩阵 | R M × N \mathbb{R}^{M \times N} RM×N | 已知(非自适应性) |
Ψ \boldsymbol{\Psi} Ψ | 变换矩阵;变换基矩阵;稀疏基矩阵;稀疏矩阵;正交基字典矩阵 | R N × N \mathbb{R}^{N\times N} RN×N | 已知(非自适应性) |
Y \boldsymbol{Y} Y | 正交基变换后的稀疏表示 | R N × 1 \mathbb{R}^{N\times1} RN×1 | 未知,需要恢复 |
Θ \boldsymbol{\Theta} Θ | 感知矩阵,传感矩阵 | R M × N \mathbb{R}^{M\times N} RM×N | 已知(非自适应性) |
A \boldsymbol{A} A | 观测压缩所得到压缩信号 | R M × 1 \mathbb{R}^{M\times1} RM×1 | 已知 |
0.3 算法重构恢复过程如下
在得到已经压缩完的采样信号
A
\boldsymbol{A}
A后,根据确定的固定性观测矩阵
Φ
\boldsymbol{\Phi}
Φ和稀疏矩阵
Ψ
\boldsymbol{\Psi}
Ψ的先验信息进行恢复,数学表达如下
X
ˇ
=
f
(
A
,
Θ
)
\boldsymbol{\check{X}}=f(\boldsymbol{A},\boldsymbol{\Theta})
Xˇ=f(A,Θ)
而
M
<
<
N
M<<N
M<<N,欠定方程,一般可以抽象为如下求解任务
min ∥ Ψ T X ∥ 0 s . t . Θ X = Φ Ψ X = A \min \left\| \boldsymbol{\Psi}^{T} \boldsymbol{X}\right\|_{0} \\s.t. \boldsymbol{\Theta} \boldsymbol{X}=\boldsymbol{\Phi}\boldsymbol{\Psi}\boldsymbol{X}= \boldsymbol{A} min∥∥∥ΨTX∥∥∥0s.t.ΘX=ΦΨX=A
注意
若 N = M N=M N=M,则可轻松由 A \boldsymbol{A} A解出 X \boldsymbol{X} X和 Y \boldsymbol{Y} Y
而
M
<
<
N
M<<N
M<<N,可根据稀疏表示下的信号
Y
\boldsymbol{Y}
Y和矩阵所具有的RIP性质
重构
1 发展历史
RIP
是压缩感知领域的一个重要概念,主要可以被用来分析还原算法的表现好坏。
年份 | 事件 | 相关论文/Reference |
---|---|---|
2005 | Emmanuel Candès、陶哲轩提出了当\delta_{2s}<1时可以保证(P0)有唯一解,并且用反证法对此问题进行了证明,大概思路是假设有两个解,会发现从RIP性质 的不等式中可以得出这两个解是相等的。 | Candes, E.; Tao, T. (2005). Decoding by linear programming. IEEE Transactions on Information Theory. 59(8):4203-4215. |
2006 | Emmanuel Candès、陶哲轩和David Donoho证明了在已知信号稀疏性的情况下,可能凭借较采样定理所规定更少的采样数重建原信号,这一理论也是压缩感知的基石。 | Candès, E.; Romberg, J. K.; Tao, T. (2006). Stable signal recovery from incomplete and inaccurate measurements. Communications on Pure and Applied Mathematics. 59 (8): 1207–1223. |
2007 | Richard Baraniuk等人提出了一种简单的技术,用于验证压缩感知基础的随机矩阵的RIP性质 。 | Baraniuk, R.G., Davenport, M.A., DeVore, R.A., & Wakin, M.B. (2007). A Simple Proof of the Restricted Isometry Property for Random Matrices. |
2008 | Emmanuel Candès证明了当
δ
2
K
<
1
\delta_{2K}<1
δ2K<1 时可以保证零范数问题有唯一的稀疏解,而当
δ
2
s
s
<
2
−
1
\delta_{2s}s<\sqrt2-1
δ2ss<2−1 时则可以保证0范数 和1范数 等价。零范数求解为NP-hard问题,在此前提下将其转化为1范数求最优化问题,这时是个凸优化,对于求解很有帮助。 | Candes, E. (2008). The restricted isometry property and its implications for compressedsensing. Comptes Rendus Mathematique. 346(8-9): 589-592. |
2 本篇的主要思路
前文有一定的简单介绍和逻辑分析(【压缩感知合集6】压缩感知为什么可以恢复信号;为什么需要满足稀疏性条件、RIP条件、矩阵不相关等限制条件才可以恢复信号的逻辑分析)这一篇文章我们详细理解一下,这个条件的必要性
主要的问题如下
RIP性质
是什么?- 为什么需要
RIP性质
? - 为什么介绍
K阶RIP性质
后恢复K稀疏信号
又要用2K阶RIP性质
?
3 RIP性质
定义
RIP性质
:有限等距性质(Restricted Isometry Property,RIP)
不同文献上表达RIP的方式不同,一般主要有以下几种(为了不影响理解我将论文中使用的一些字母进行了替换,换成了我前文例子中的字母表示,但是不影响他对性质的具体定义):
中文定义一
传感矩阵 Θ \boldsymbol{\Theta} Θ 的RIP参数 δ k \delta_{k} δk 为满足下式的最小值 δ \delta δ
( 1 − δ ) ∥ Y ∥ 2 2 ⩽ ∥ Θ Y ∥ 2 2 ⩽ ( 1 + δ ) ∥ Y ∥ 2 2 (1-\delta)\|\boldsymbol{Y}\|_{2}^{2} \leqslant\left\|\boldsymbol{\Theta}{\boldsymbol{Y}}\right\|_{2}^{2} \leqslant(1+\delta)\|\boldsymbol{Y}\|_{2}^{2} (1−δ)∥Y∥22⩽∥ΘY∥22⩽(1+δ)∥Y∥22
其中 Y \boldsymbol{Y} Y 为 K K K 稀疏信号。若 δ K < 1 \delta_{K} < 1 δK<1 ,则称测量矩阵 Θ \boldsymbol{\Theta} Θ 满足 K K K 阶RIP。王强,李佳,沈毅.压缩感知中确定性测量矩阵构造算法综述[J]. 电子学报,2013,41(10):2041-2050.
中文定义二
为了重构稀疏信号,Candès和Tao给出并证明了传感矩阵 Θ \boldsymbol{\Theta} Θ 必须满足约束等距性条件。
对于任意 c ∈ R ∣ T ∣ \boldsymbol{c} \in \boldsymbol{R}^{|T|} c∈R∣T∣ 和存在常数 δ K ∈ ( 0 , 1 ) \delta_{K} \in(0,1) δK∈(0,1) , 如果
( 1 − δ K ) ∥ c ∥ 2 2 ≤ ∥ Θ T c ∥ 2 2 ≤ ( 1 + δ K ) ∥ c ∥ 2 2 \left(1-\delta_{K}\right)\|\boldsymbol{c}\|_{2}^{2} \leq\left\|\boldsymbol{\Theta}_{T} \boldsymbol{c}\right\|_{2}^{2} \leq\left(1+\delta_{K}\right)\|\boldsymbol{c}\|_{2}^{2} (1−δK)∥c∥22≤∥ΘTc∥22≤(1+δK)∥c∥22
成立,其中 T ⊂ { 1 , ⋯ , N } T \subset\{1, \cdots, N\} T⊂{1,⋯,N} , ∣ T ∣ ≤ K \left|T\right| \leq K ∣T∣≤K , ∣ T ∣ \left|T\right| ∣T∣ 表示集合的势,实数集内集合的势就是元素的个数, Θ T \boldsymbol{\Theta}_{T} ΘT 为 Θ \boldsymbol{\Theta} Θ 中由索引集 T T T 所指示的相关列构成的大小为 K × ∣ T ∣ K\times\left|T\right| K×∣T∣ 的子矩阵,则称矩阵 Θ \boldsymbol{\Theta} Θ 满足 K K K 阶有限等距性。通常,对于一个 K K K 稀疏信号 Y \boldsymbol{Y} Y (其 K K K 个非零值的位置是未知的),可以通过重构公式
Y ˇ = arg min ∥ Y ∥ 0 s.t. A = Θ X \check{\boldsymbol{Y}}=\arg \min \|\boldsymbol{Y}\|_{0} \quad \text { s.t. } \quad \boldsymbol{A} = \boldsymbol{\Theta} \boldsymbol{X} Yˇ=argmin∥Y∥0 s.t. A=ΘX
实现从 A \boldsymbol{A} A 精确重构出 Y \boldsymbol{Y} Y 或者 X \boldsymbol{X} X 的充分条件是:矩阵 Θ \boldsymbol{\Theta} Θ , 对于任意 c ∈ R ∣ T ∣ \boldsymbol{c} \in \boldsymbol{R}^{\left|T\right|} c∈R∣T∣ 和存在常数 δ 2 K ∈ ( 0 , 1 ) \delta_{2 K} \in(0,1) δ2K∈(0,1) 有 2 K 2 K 2K 阶有限等距性, 即
( 1 − δ 2 K ) ∥ c ∥ 2 2 ≤ ∥ Θ T c ∥ 2 2 ≤ ( 1 + δ 2 K ) ∥ c ∥ 2 2 \left(1-\delta_{2 K}\right)\|\boldsymbol{c}\|_{2}^{2} \leq\left\|\boldsymbol{\Theta}_{T} \boldsymbol{c}\right\|_{2}^{2} \leq\left(1+\delta_{2 K}\right)\|\boldsymbol{c}\|_{2}^{2} (1−δ2K)∥c∥22≤∥ΘTc∥22≤(1+δ2K)∥c∥22
成立,其中 T ⊂ { 1 , ⋯ , N } , ∣ T ∣ ≤ 2 K T \subset\{1, \cdots, N\}, |T| \leq 2 K T⊂{1,⋯,N},∣T∣≤2K。李树涛,魏丹.压缩传感综述[J]. 自动化学报,2009,35(11):1369-1377.
中文定义三
需要设计一个平稳的、与变换基 Ψ \boldsymbol{\Psi} Ψ 不相关的 M × N M \times N M×N 维观测矩阵 Φ \boldsymbol{\Phi} Φ ,对 Y \boldsymbol{Y} Y 进行观测得到观测矩阵
A = Φ X = Φ Ψ Y \boldsymbol{A}=\boldsymbol{\Phi}\boldsymbol{X}=\boldsymbol{\Phi} \boldsymbol{\Psi} \boldsymbol{Y} A=ΦX=ΦΨY
该过程也可以表示为信号 $ \boldsymbol{Y}$ 通过矩阵 Θ \boldsymbol{\Theta} Θ 进行非自适应观测: A = Θ Y \boldsymbol{A}=\boldsymbol{\Theta}\boldsymbol{Y} A=ΘY其中 Θ = Φ Ψ \boldsymbol{\Theta}=\boldsymbol{\Phi} \boldsymbol{\Psi} Θ=ΦΨ。需要关注的问题是观测矩阵 Φ \boldsymbol{\Phi} Φ 的选取,需要保证稀疏向量 Y \boldsymbol{Y} Y 从 N N N 维降到 M M M 维时重要信息不被破坏。在压缩感知理论中, 有限等距性质是判断矩阵是否可以成为测量矩阵的一个重要的标准。
对于 K K K 稀疏向量 Y ∈ R N \boldsymbol{Y} \in \boldsymbol{R}^{N} Y∈RN 来说,当它满足如下公式时,传感矩阵 Θ \boldsymbol{\Theta} Θ 满足有限等距性质。
( 1 − ε ) ∥ Y ∥ 2 ⩽ ∥ Θ Y ∥ 2 ⩽ ( 1 + ε ) ∥ Y ∥ 2 (1-\varepsilon)\|\boldsymbol{Y}\|_{2} \leqslant\|\boldsymbol{\Theta} \boldsymbol{Y}\|_{2} \leqslant(1+\varepsilon)\|\boldsymbol{Y}\|_{2} (1−ε)∥Y∥2⩽∥ΘY∥2⩽(1+ε)∥Y∥2李坤,马彩文,李艳,陈萍. 压缩感知重构算法综述[J]. 红外与激光工程,2013,42(z1):225-232.
英文定义一
最多人引用的出处
英文原文:
整理归纳翻译,并改变字母如下:
假设 F \boldsymbol{F} F 是有限个列向量 v j ∈ R P × 1 \boldsymbol{v}_j \in \boldsymbol{R}^{P\times 1} vj∈RP×1 的集合矩阵,其中 j ∈ J j\in J j∈J
对于任意整数 K K K , 1 ≤ K ≤ ∣ J ∣ 1\leq K\leq \left| J\right| 1≤K≤∣J∣,我们定义 K K K 阶有限等距系数 δ K \delta_{K} δK 为满足下式的最小值
( 1 − δ K ) ∥ c ∥ 2 ≤ ∥ F T c ∥ 2 ≤ ( 1 + δ K ) ∥ c ∥ 2 \left(1-\delta_{K}\right)\|\boldsymbol{c}\|^{2} \leq\left\|\boldsymbol{F}_T \boldsymbol{c}\right\|^{2} \leq\left(1+\delta_{K}\right)\|\boldsymbol{c}\|^{2} (1−δK)∥c∥2≤∥FTc∥2≤(1+δK)∥c∥2
式中的 T T T 为 J J J 的任意子集 T ⊂ J T\sub J T⊂J ,元素个数最大为 K K K , c \boldsymbol{c} c 可以是多个任意实数作为系数 c j c_j cj 构成的向量,其中 j ∈ T j\in T j∈T个人注释:
- 如果 J = { 1 , 2 , . . . , N } J = \{1,2,...,N\} J={1,2,...,N} , J J J 的势为 N N N ,即为 ∣ J ∣ = N \left|J\right| = N ∣J∣=N
- 对于构成 F \boldsymbol{F} F 的列向量 v j \boldsymbol{v}_j vj ,有 j ∈ J j \in J j∈J ,也就是说 j = 1 , 2 , 3 , . . . N j= 1,2,3,...N j=1,2,3,...N, F \boldsymbol{F} F 共有 N N N 个列向量 v j \boldsymbol{v}_j vj,每个列向量都 v j ∈ R p × 1 \boldsymbol{v}_j\in \boldsymbol{R}^{p\times 1} vj∈Rp×1
- 对于构成 F T \boldsymbol{F}_T FT 的列向量 v j \boldsymbol{v}_j vj ,有 j ∈ T j \in T j∈T ,其中 T T T 为 J J J 的子集,此时可以理解为 F T \boldsymbol{F}_T FT 共有 ∣ T ∣ |T| ∣T∣ 个列向量 v j \boldsymbol{v}_j vj
- 通过这种子集的方式,实现 ∣ T ∣ < ∣ J ∣ |T|<|J| ∣T∣<∣J∣ ,来表示稀疏,通过子集的势(也就是子集的元素数量),实现 ∣ T ∣ < K |T|<K ∣T∣<K 来表示 K K K 阶的要求
CandesE, Tao T. Decoding by linear programming. IEEE Transactions on InformationTheory, 2005,59(8):4203-4215.
英文定义二
英文原文
整理归纳翻译,并改变字母如下:
对于每一个整数 K = 1 , 2 , . . . K = 1,2,... K=1,2,... ,定义矩阵 Θ \boldsymbol{\Theta} Θ 的等距系数 δ k \delta_{k} δk , δ k \delta_{k} δk 为在所有 K \boldsymbol{K} K 稀疏向量 Y \boldsymbol{Y} Y 情况下,都满足下面公式的最小值:
( 1 − δ K ) ∥ Y ∥ ℓ 2 2 ≤ ∥ Θ Y ∥ ℓ 2 2 ≤ ( 1 + δ K ) ∥ Y ∥ ℓ 2 2 \left(1-\delta_{K}\right)\|\boldsymbol{Y}\|_{\ell_{2}}^{2} \leq\|\boldsymbol{\Theta} \boldsymbol{Y}\|_{\ell_{2}}^{2} \leq\left(1+\delta_{K}\right)\|\boldsymbol{Y}\|_{\ell_{2}}^{2} (1−δK)∥Y∥ℓ22≤∥ΘY∥ℓ22≤(1+δK)∥Y∥ℓ22
如果一个向量最多有 K K K 个非零条目,则称它是 K K K 稀疏的。CandesE. The restricted isometry property and its implications for compressedsensing[J]. Comptes Rendus Mathematique, 2008,346(8-9): 589-592.
英文定义三
英文原文
整理归纳翻译,并改变字母如下:
这个简化问题(上所叙述的精确恢复问题)充分必要条件是:对于任意和 Y \boldsymbol{Y} Y有同样稀疏度 K K K的向量 V \boldsymbol{V} V存在 ε > 0 \varepsilon>0 ε>0满足下面的公式
1 − ε ≤ ∥ Θ v ∥ 2 ∥ v ∥ 2 ≤ 1 + ε 1-\varepsilon \leq \frac{\|\boldsymbol{\Theta} \boldsymbol{v}\|_{2}}{\|\boldsymbol{v}\|_{2}} \leq 1+\varepsilon 1−ε≤∥v∥2∥Θv∥2≤1+εBaraniukR G. Compressive sensing. IEEE Signal Processing Magazine, 2007,24(4): 118-121.
定义之间的分析比较
三种中文RIP
定义中:
-
其实前两种是等价的。
-
中文定义一定义中要注意要求 Y \boldsymbol{Y} Y 为 K K K 稀疏信号。
-
中文定义二研究的对象矩阵是从一个矩阵中根据索引 T T T 选出其中的若干列构成的子矩阵,而并没有对 c \boldsymbol{c} c 有稀疏性的要求;也就是说你可以这样认为,定义二中的 c \boldsymbol{c} c 是第一种中的 Y \boldsymbol{Y} Y 的 K K K 个非零项,而索引 T T T 选出的几列则是第一种中的矩阵对应 Y \boldsymbol{Y} Y 的非零项的那几列。
-
中文定义三和前面两种略有不同,整体上少一个平方,其实可以这样认为,中文定义三中的 ( 1 ± ε ) (1 \pm \varepsilon) (1±ε) 的平方实际上是第一、二种中的 ( 1 + δ ) (1+\delta) (1+δ) ,这会导致推导的参数 ε \varepsilon ε 和 δ \delta δ 有差异。
三种英文RIP
定义中:
-
英文定义一和前面的中文定义二基本一致。
-
英文定义二和前面的中文定义一基本一致.
-
从前两种定义中其实可以发现,人家是在说
限制等距常数
(Restricted IsometryConstant, RIC)的时候把RIP性质
引出来的,RIP性质
只要要求 δ ∈ ( 0 , 1 ) \delta \in(0,1) δ∈(0,1) 就可以了,而RIC是指满足RIP的最小 δ \delta δ。 -
英文定义三和中文定义三也是基本一致
总结
RIP性质
只要要求
0
<
δ
<
1
0<\delta<1
0<δ<1 就可以了,而RIC
是指满足RIP
的最小
δ
\delta
δ 。整个式子可以视为信号跟传感矩阵的相似程度,也就是做转换q前后的能量,要被RIP
限制住。
4 RIP性质
到底是对哪一个矩阵的约束?
RIP性质
的定义解释完毕,虽然在例子当中都有翻译和换算成统一的符号。在这里再进行一下总结和描述。
符号 | 含义 | 维度 | 属性 |
---|---|---|---|
X \boldsymbol{X} X | 输入信号;待压缩信号 | R N × 1 \mathbb{R}^{N\times1} RN×1 | 未知,需要恢复 |
Φ \boldsymbol{\Phi} Φ | 观测矩阵;测量矩阵 | R M × N \mathbb{R}^{M \times N} RM×N | 已知(非自适应性) |
Ψ \boldsymbol{\Psi} Ψ | 变换矩阵;变换基矩阵;稀疏基矩阵;稀疏矩阵;正交基字典矩阵 | R N × N \mathbb{R}^{N\times N} RN×N | 已知(非自适应性) |
Y \boldsymbol{Y} Y | 正交基变换后的稀疏表示 | R N × 1 \mathbb{R}^{N\times1} RN×1 | 未知,需要恢复 |
Θ \boldsymbol{\Theta} Θ | 感知矩阵,传感矩阵 | R M × N \mathbb{R}^{M\times N} RM×N | 已知(非自适应性) |
A \boldsymbol{A} A | 观测压缩所得到压缩信号 | R M × 1 \mathbb{R}^{M\times1} RM×1 | 已知 |
所有定义中定义都是类似于如下形式:(我用我自己的数学语言概括一下)
Y
∼
sparse
:
Y
∈
R
N
×
1
,
∀
p
∈
(
0
,
2
)
,
∃
R
>
0
:
∥
Y
∥
p
≡
(
∑
i
=
0
N
−
1
∣
y
i
∣
p
)
1
/
p
⩽
R
Y
∼
Strict K-sparse
:
Y
∈
R
N
×
1
,
∥
Y
∥
0
=
K
Θ
∼
K-RIP
:
∃
δ
K
∈
(
0
,
1
)
,
For
∀
Y
∼
K-sparse
,
Y
∈
R
N
×
1
(
1
−
δ
K
)
∥
Y
∥
2
≤
∥
Θ
Y
∥
2
≤
(
1
+
δ
K
)
∥
Y
∥
2
\begin{aligned} &\boldsymbol{Y} \thicksim \text{sparse}:\\ &\qquad\boldsymbol{Y}\in \boldsymbol{R}^{N\times 1},\;\forall p\in(0,2),\; \exists R>0: \\ &\qquad\|\boldsymbol{Y}\|_{p} \equiv\left(\sum_{i=0}^{N-1}\left|y_{i}\right|^{p}\right)^{1 / p} \leqslant R \\ &\boldsymbol{Y} \thicksim \text{Strict K-sparse}:\\ &\qquad\boldsymbol{Y}\in \boldsymbol{R}^{N\times 1},\quad\|\boldsymbol{Y}\|_{0} =K\\ &\boldsymbol{\Theta} \thicksim \text{K-RIP}:\\ &\qquad \exists\; \delta_{K} \in (0,1),\; \text{For} \; \forall \; \boldsymbol{Y} \thicksim \text{K-sparse} ,\;\boldsymbol{Y} \in \boldsymbol{R}^{N\times 1} \\ &\qquad\left(1-\delta_{K}\right)\|\boldsymbol{Y}\|^{2} \leq\left\|\boldsymbol{\Theta}\boldsymbol{Y}\right\|^{2} \leq\left(1+\delta_{K}\right)\|\boldsymbol{Y}\|^{2} \end{aligned}
Y∼sparse:Y∈RN×1,∀p∈(0,2),∃R>0:∥Y∥p≡(i=0∑N−1∣yi∣p)1/p⩽RY∼Strict K-sparse:Y∈RN×1,∥Y∥0=KΘ∼K-RIP:∃δK∈(0,1),For∀Y∼K-sparse,Y∈RN×1(1−δK)∥Y∥2≤∥ΘY∥2≤(1+δK)∥Y∥2
K阶RIP
即为存在常数
δ
K
∈
(
0
,
1
)
\delta_{K}\in (0,1)
δK∈(0,1) ,对于任意
K
K
K 稀疏的向量
Y
∈
R
N
×
1
\boldsymbol{Y}\in\boldsymbol{R}^{N\times1}
Y∈RN×1(一般保证
K
<
<
M
<
<
N
K<<M<<N
K<<M<<N ) ,都使得传感矩阵
Θ
\boldsymbol{\Theta}
Θ 能符合下面要求
(
1
−
δ
K
)
∥
Y
∥
2
≤
∥
Θ
Y
∥
2
≤
(
1
+
δ
K
)
∥
Y
∥
2
\left(1-\delta_{K}\right)\|\boldsymbol{Y}\|^{2} \leq\left\|\boldsymbol{\Theta}\boldsymbol{Y}\right\|^{2} \leq\left(1+\delta_{K}\right)\|\boldsymbol{Y}\|^{2}
(1−δK)∥Y∥2≤∥ΘY∥2≤(1+δK)∥Y∥2
文献[李树涛,魏丹.压缩传感综述[J]. 自动化学报,2009,35(11):1369-1377.]
其中这里提到的文献[4]即为文献[BaraniukR G. Compressive sensing. IEEE Signal Processing Magazine, 2007,24(4):118-121.]
RIP
是针对传感矩阵
Θ
\boldsymbol{\Theta}
Θ 的没有问题,但是很多地方又说是针对测量矩阵
Φ
\boldsymbol{\Phi}
Φ 。这里解答一下这个问题。直接设计满足RIP
的矩阵很难。但是 “由于稀疏矩阵是固定的,要使得传感矩阵
Θ
\boldsymbol{\Theta}
Θ 满足约束等距条件,可以通过设计测量矩阵
Φ
\boldsymbol{\Phi}
Φ 解决“。设计测量矩阵,让测量矩阵
Φ
\boldsymbol{\Phi}
Φ 满足某些性质之后可以实现传感矩阵
Θ
\boldsymbol{\Theta}
Θ 满足RIP
。
5 为何要满足RIP
有限等距性质的解释
5.1 从能量角度考量
向量的2范数
的平方就是信号的能量,换成常见的公式:
E
=
∥
X
∥
2
2
=
∑
i
=
−
∞
∞
∣
x
i
∣
2
E=\|\boldsymbol{X}\|_{2}^{2}=\sum_{i=-\infty}^{\infty}|x_i|^{2}
E=∥X∥22=i=−∞∑∞∣xi∣2
这个公式可以数字信号处理教材中讲信号分类的章节找到,实际上将信号看成是电压信号或电流信号,这是在单位电阻上的能量(即
E
=
U
2
T
/
R
E = U^2T/R
E=U2T/R 或
E
=
I
2
R
T
E = I^2RT
E=I2RT,
R
=
1
Ω
R=1\Omega
R=1Ω,再离散可)。
这里将中文定义一中的RIP性质
的不等式按本文定义的符号重新写出:
(
1
−
δ
)
∥
Y
∥
2
2
≤
∥
Θ
Y
∥
2
2
≤
(
1
+
δ
)
∥
Y
∥
2
2
(1-\delta)\|\boldsymbol{Y}\|_{2}^{2} \leq\|\boldsymbol{\Theta}\boldsymbol{Y}\|_{2}^{2} \leq(1+\delta)\|\boldsymbol{Y}\|_{2}^{2}
(1−δ)∥Y∥22≤∥ΘY∥22≤(1+δ)∥Y∥22
这里的
∥
Θ
Y
∥
2
2
\|\boldsymbol{\Theta}\boldsymbol{Y}\|_{2}^{2}
∥ΘY∥22 实际上是上面能量公式中的
∥
X
∥
2
2
\|X\|^2_2
∥X∥22 ,即输出信号的能量
∥
A
∥
2
2
\|\boldsymbol{A}\|^2_2
∥A∥22,
∥
Y
∥
2
2
\|\boldsymbol{Y}\|_{2}^{2}
∥Y∥22 即输入信号的能量。
稀疏变换 X = Ψ Y \boldsymbol{X} = \boldsymbol{\Psi} \boldsymbol{Y} X=ΨY 为正交变换,而正交变换保持能量不变,即信号理论中的Parseval定理。
RIP
其实可以看成刻画一个矩阵和标准正交阵的相似程度。其对于向量做变化后的能量(范数平方)相较于原向量的能量的变化不超过一定的范围。
RIP
对于Stability 的分析非常有效。RIP
是由 Candes 和 Tao 提出来的,可以看他们的提出这个概念的文章: Decoding by LinearProgramming(注:此段话在评论部分)。
此处最核心的逻辑解释应该是:将稀疏信息量 Y \boldsymbol{Y} Y 观测为 A \boldsymbol{A} A 的过程中保证 Y \boldsymbol{Y} Y 中比较有价值的 K K K各分量不会在转换中能量损失太多或者被无端增幅太多,导致不可被恢复。
其实取极限当
δ
=
0
\delta=0
δ=0 时(RIP
要求
δ
∈
(
0
,
1
)
\delta \in (0,1)
δ∈(0,1)),RIP
的不等式实际上表示的是观测所得向量
A
\boldsymbol{A}
A 的能量等于信号
X
\boldsymbol{X}
X 的能量,在线性代数中所讲的正交变换也具有这种性质,也称为等距变换(把信号将为二维或三维时2范数
∥
⋅
∥
2
\|\cdot\|_2
∥⋅∥2 的平方可形象的理解为到原点的距离)。当取到极限
δ
=
0
\delta=0
δ=0 时也能保持能量相等(也可以称为等距),而RIP
要求
0
<
δ
<
1
0<\delta<1
0<δ<1,所以不可能等距,所以就称为有限等距性质
。
5.2 从相关性的角度考量
从这个角度探讨一下测量矩阵
Φ
∈
R
M
×
N
\boldsymbol{\Phi}\in\boldsymbol{R}^{M\times N}
Φ∈RM×N 需要满足的这个性质(后期被证明和RIP
的矩阵不相关性质具体叙述在上一篇blog中有)。从这个角度可能比较好理解有限等距性。我们用极限分析法。如果我们把
Φ
\boldsymbol{\Phi}
Φ 构造成和
Ψ
∈
R
N
×
N
\boldsymbol{\Psi}\in\boldsymbol{R}^{N\times N}
Ψ∈RN×N 极端相似(Coherence)的矩阵,也就是直接拿出
Ψ
\boldsymbol{\Psi}
Ψ 的前
M
M
M 列,转置一下构成
Φ
\boldsymbol{\Phi}
Φ 。用这个构造带入,我们将得到:
A
=
Φ
Ψ
Y
=
[
ψ
11
ψ
21
⋯
ψ
N
1
ψ
12
ψ
22
⋯
ψ
N
2
⋮
⋮
⋮
ψ
1
M
ψ
2
M
⋯
ψ
N
M
]
[
ψ
11
ψ
12
⋯
ψ
1
M
⋯
ψ
1
N
ψ
21
ψ
22
⋯
ψ
2
M
⋯
ψ
2
N
⋮
⋮
⋮
ψ
N
1
ψ
N
2
⋯
ψ
N
M
⋯
ψ
N
N
]
Y
\begin{aligned} \boldsymbol{A} &= \boldsymbol{\Phi}\boldsymbol{\Psi}\boldsymbol{Y} \\ &=\left[\begin{array}{c} \psi_{11} \quad \psi_{21} \cdots \psi_{N1} \\ \psi_{12} \quad \psi_{22} \cdots \psi_{N2} \\ \vdots \quad \vdots \quad \vdots \\ \psi_{1M} \quad \psi_{2M} \cdots \psi_{NM} \\ \end{array}\right] \left[\begin{array}{c} \psi_{11} \quad \psi_{12} \cdots \psi_{1M} \cdots \psi_{1N}\\ \psi_{21} \quad \psi_{22} \cdots \psi_{2M} \cdots \psi_{2N}\\ \vdots \quad \vdots \quad \vdots\\ \psi_{N1} \quad \psi_{N2}\cdots\psi_{NM} \cdots \psi_{NN} \end{array}\right] \boldsymbol{Y} \end{aligned}
A=ΦΨY=⎣⎢⎢⎢⎡ψ11ψ21⋯ψN1ψ12ψ22⋯ψN2⋮⋮⋮ψ1Mψ2M⋯ψNM⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡ψ11ψ12⋯ψ1M⋯ψ1Nψ21ψ22⋯ψ2M⋯ψ2N⋮⋮⋮ψN1ψN2⋯ψNM⋯ψNN⎦⎥⎥⎥⎤Y
你可以把
Φ
\boldsymbol{\Phi}
Φ 与
Ψ
\boldsymbol{\Psi}
Ψ 相乘看作是从
Φ
\boldsymbol{\Phi}
Φ 中取了
K
K
K 个列出来按一定系数加在了一起。也就是说,你强迫的认为前
M
M
M 个变换域的基向量是重要的。而事实是,重要的
K
K
K 个分量的位置我们事先是不知道的,是随着信号的不同而不同的。所以实际上不会有这种随便取
K
K
K 列就完全正交的矩阵,因为传感矩阵
Θ
\boldsymbol{\Theta}
Θ 不可能是正交矩阵(
Θ
\boldsymbol{\Theta}
Θ 都不是方阵)。
当然,你可以将
Φ
\boldsymbol{\Phi}
Φ 恰好构造成对应
Ψ
\boldsymbol{\Psi}
Ψ 最重要分量的
K
K
K 行,得到正确的结果。而这种的做法要付出的概率代价是
1
C
N
K
\frac{1}{C^K_N}
CNK1 。也就是说,你必须穷举
C
N
K
C^K_N
CNK 次,才能得到你想要的结果。但是,即使你有幸碰到了它, 也并不能肯定这个结果就是对的。因此,我们选择
Φ
\boldsymbol{\Phi}
Φ 和
Ψ
\boldsymbol{\Psi}
Ψ 极端不相似(Extremely Incoherence )。于是,
Φ
\boldsymbol{\Phi}
Φ 很大程度上和随机(Randomnes)这个词相联系, 它可以是满足高斯分布的白噪声矩阵, 或贝努里分布的 ±1矩阵( 也称作Noiselet ) 等等。除此之外, 我们希望线性测量有稳定的能量性质,也就是它要保持K 个重要分量的长度。综:
1
−
δ
≤
∥
Φ
Ψ
Y
∥
2
∥
Y
∥
2
≤
1
+
δ
1-\delta \leq \frac{\left\|\Phi \Psi \boldsymbol{Y}\right\|_{2}}{\|\boldsymbol{Y}\|_{2}} \leq 1+\delta
1−δ≤∥Y∥2∥ΦΨY∥2≤1+δ
文献[李树涛,魏丹.压缩传感综述[J]. 自动化学报,2009,35(11):1369-1377.]
其中这里提到的文献[4]即为文献[BaraniukR G. Compressive sensing. IEEE Signal Processing Magazine, 2007,24(4):118-121.]
这里还提到了”任意 2 K 2K 2K 列都不相关“,其实这很好理解:
如果矩阵有 2 K 2K 2K 列线性相关,存在一个向量 Y \boldsymbol{Y} Y
∑ i = 0 2 K ψ i ∗ y i = 0 \sum_{i=0}^{2K}\boldsymbol{\psi}_i*y_i = 0 i=0∑2Kψi∗yi=0
则对于某一个 2 K 2K 2K 稀疏的信号,必然会有 Ψ Y = 0 \boldsymbol{\Psi}\boldsymbol{Y}=0 ΨY=0,又因为一个 2 K 2K 2K 稀疏的信号可以写成两个 K K K 稀疏的信号相减(把 2 K 2K 2K 稀疏信号的 2 K 2K 2K 个非零项分成两部分,每部分分别包含 K K K 个非零项,其余部分填零,长度与原 2 K 2K 2K 稀疏信号保持不变,即得到了两个 K K K 稀疏信号,其中的一个 K K K 稀疏信号中的 K K K 个非零项乘负一,另一部分减这一部分必然等于原始的 2 K 2K 2K 稀疏信号),这三个信号分别为 Y 2 K , Y K 1 , Y K 2 \boldsymbol{Y}_{2K},\boldsymbol{Y}_{K_1},\boldsymbol{Y}_{K_2} Y2K,YK1,YK2
因此有
Θ ( Y K 1 - Y K 2 ) = 0 \boldsymbol{\Theta}(\boldsymbol{Y}_{K_1}-\boldsymbol{Y}_{K_2})=0 Θ(YK1-YK2)=0
即
Θ Y K 1 = Θ Y K 2 \boldsymbol{\Theta}\boldsymbol{Y}_{K_1} = \boldsymbol{\Theta}\boldsymbol{Y}_{K_2} ΘYK1=ΘYK2
也就是说对于两个不同的 K K K 稀疏信号 Y K 1 \boldsymbol{Y}_{K_1} YK1 和 Y K 2 \boldsymbol{Y}_{K_2} YK2 ,压缩观测后得到了同一个 A \boldsymbol{A} A ,即不能保证唯一映射,所以矩阵不能有 2 K 2K 2K 列线性相关,否则将不能保证唯一映射。
关于spark常数讲的也是这么个道理,有兴趣可以看一下这篇文章
另外还有一篇比较不错的文章
5.3 从唯一映射角度考量
RIP性质
保证了观测矩阵不会把两个不同的
K
K
K 稀疏信号映射到同一个集合中(保证原空间到稀疏空间的一一映射关系),要求从观测矩阵中抽取的每
M
M
M 个列向量构成的矩阵是非奇异的。
当 δ 2 k < 1 \delta_{2k}<1 δ2k<1 时,可以保证零范数问题有唯一的稀疏解
当 δ 2 k < 2 − 1 \delta_{2k}<\sqrt{2}-1 δ2k<2−1 时则可以保证零范数和1范数等价(零范数求解为NP-hard问题,在此前提下将其转化为1范数求最优化问题,这时是个凸优化,之后的blog,会讲一下
Candes E. Therestricted isometry property and its implications for compressed sensing[J].Comptes Rendus Mathematique, 2008,346(8-9): 589-592.
当 δ 2 k < 2 − 1 \delta_{2k}<\sqrt{2}-1 δ2k<2−1 时可以保证问题
P0
有唯一解,并且用反证法对此问题进行了证明,大概思路是假设有两个解,会发现从RIP性质
的不等式中可以得出这两个解是相等的。
Candes E, Tao T.Decoding by linear programming. IEEE Transactions on Information Theory,2005,59(8):4203-4215.
6 总结
矩阵满足
2
K
2K
2K 阶RIP
保证了能够把任意一个
K
K
K 稀疏信号
Y
\boldsymbol{Y}
Y 映射为唯一的
A
\boldsymbol{A}
A ,也就是说要想通过压缩观测
A
\boldsymbol{A}
A 恢复
K
K
K 稀疏信号
Y
\boldsymbol{Y}
Y ,必须保证传感矩阵满足
2
K
2K
2K 阶RIP
,满足
2
K
2K
2K 阶RIP
的矩阵任意
2
K
2K
2K 列线性无关,即为不能有任意
2
K
2K
2K 列线性相关。
然后还有对于一个感知矩阵而言,一定阶数的RIP 常数
越小越好,其物理意义在于RIP 常数
越小说明该矩阵内的任意小于该阶数的列向量之间的正交性越好,利用其对稀疏信号进行感知采样时,感知矩阵各列“采集”到的信息差异性越大,越有利于进行信号的重构和恢复。我们对这个矩阵的优化也主要集中在如何是其列间相关性变得更弱,相关性越弱则结果的分辨力应该就越高,更容易被有效恢复。
7 疑问与一些自己的想法解释
从能量角度来说,RIP
实际上保证了压缩观测前后的能量变化范围,下限不能为零,上限不能超过原信号的两倍(RIP
不等式中取
δ
=
1
\delta=1
δ=1 的极限时)。这里的下限不能为零是很好理解的,当信号能量为零时表示原信号的所有项全部为零,零向量中自然是没有信息的;上限怎么理解呢?为什么压缩观测后的能量不能超过原信号的两倍呢?
我个人做如下的解释:
如果超过了两倍,就一定程度上代表在 Φ Ψ \boldsymbol{\Phi}\boldsymbol{\Psi} ΦΨ 相乘的过程中,有过多的矩阵行列向量( Φ \boldsymbol{\Phi} Φ 的行向量和 Ψ \boldsymbol{\Psi} Ψ 的列向量)完成了比较好的匹配(也就是相似),他们在因为较大相似性的情况下,有较多行列向量之间的相关性。导致部分变换基能量的过度集中放大,使得很难实现我们所想要的情况:对于任意 2 K 2K 2K 的行列向量都不会有很强的相关性,完成完全的精准的一一对应的恢复(证明见5.3)。
有限等距常数RIC
的取范围定义中约束为大于0小于1,RIC
越趋近于零则压缩观测前后能量变化越小,是不是可以这样说:RIC
越小说明对矩阵的要求越严(能量变化范围小),RIC
越大说明对矩阵要求越宽松。比如在证明1范数
与0范数
问题等价时经常说把
δ
\delta
δ 的范围放宽到某个值(
δ
\delta
δ 范围变大),是不是这么个理呢?
对于
RIC
的大小是否反应对这个矩阵的约束强弱:是的
RIC
越趋近于零则压缩观测前后能量变化越小,越有可能实现在更低采样率下的恢复
8 拓展
LAST、参考文献
压缩感知测量矩阵之有限等距性质(Restricted Isometry Property, RIP)_彬彬有礼的专栏-CSDN博客_有限等距性质
浅谈压缩感知(十六):感知矩阵之RIP - AndyJee - 博客园
浅谈压缩感知(十五):感知矩阵之spark常数 - AndyJee - 博客园