提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
一、矢量空间简介
我们在大一曾经学过应该都学过线性代数,在那时我们引入了欧几里得空间的概念,我们将这个空间简记为
R
N
R^N
RN。
R
N
R^N
RN中的标准内积定义为
⟨
x
,
z
⟩
=
z
T
x
=
∑
i
=
1
N
x
i
z
i
\langle x, z\rangle=z^{\mathrm{T}} x=\sum_{i=1}^{N} x_{i} z_{i}
⟨x,z⟩=zTx=i=1∑Nxizi
而我们往往也比较关心矢量的范数
ℓ
p
\ell_{p}
ℓp ,针对
p
∈
[
1
,
∞
)
p \in[1, \infty)
p∈[1,∞) 时,定义如下:
∥
x
∥
p
=
{
(
∑
i
=
1
N
∣
x
i
∣
ρ
)
1
p
,
p
∈
[
1
,
∞
)
max
∣
x
i
∣
,
p
=
∞
i
=
1
,
2
,
⋯
,
N
\|x\|_{p}=\left\{\begin{array}{ll} \left(\sum_{i=1}^{N}\left|x_{i}\right| \rho\right)^{\frac{1}{p}}, & p \in[1, \infty) \\ \max \left|x_{i}\right|, & p=\infty \end{array} \quad i=1,2, \cdots, N\right.
∥x∥p=⎩⎨⎧(∑i=1N∣xi∣ρ)p1,max∣xi∣,p∈[1,∞)p=∞i=1,2,⋯,N
因而矢量的范数
ℓ
2
\ell_{2}
ℓ2 可以表示为
∥
x
∥
2
=
⟨
x
,
x
⟩
\|x\|_{2}=\sqrt{\langle x, x\rangle}
∥x∥2=⟨x,x⟩ 。而在
p
<
1
p<1
p<1 的情况下, 上式中定义的范数已 经无法满足三角不等式, 所以它本质上是拟范数 (quasinorm)。本书中, 将经常采用如下表达式
∥
x
∥
0
=
∣
supp
(
x
)
∣
\|x\|_{0}=|\operatorname{supp}(x)|
∥x∥0=∣supp(x)∣ ,其中
supp
(
x
)
=
{
i
:
x
i
≠
0
}
\operatorname{supp}(x)=\left\{i: x_{i} \neq 0\right\}
supp(x)={i:xi=0} 表示
x
x
x 的支撑集或简称为支撑;
∣
δ
∣
|\delta|
∣δ∣ 表示集合
δ
\delta
δ 的基数, 也就是集合
δ
\delta
δ 中元素的个数。
∥
x
∥
0
\|x\|_{0}
∥x∥0 通常记为
ℓ
0
\ell_{0}
ℓ0, 注意
∥
⋅
∥
0
\|\cdot\|_{0}
∥⋅∥0 甚至 连拟范数都谈不上。
我们通常可以把有限域的离散信号看成分布于N维欧几里得空间中的向量
通常采用范数来描述信号的强度或误差的大小。假设已知一个信 号
x
∈
R
2
x \in \mathbb{R}^{2}
x∈R2, 希望用一个在一维 Affine 空间
A
\mathbb{A}
A 中的点来逼近它。(Affine 空间即仿射空间,如果x和y都属于此空间,则
θ
x
+
(
1
−
θ
)
y
\theta x+(1-\theta) y
θx+(1−θ)y 也属于此空间,可以理解仿射空间时平移了的线性子空间),如果采用
ℓ
p
\ell_{p}
ℓp 衡量这种逼近误差, 那么任务就是找到
x
^
∈
A
\hat{x} \in \mathbb{A}
x^∈A 使得
∥
x
−
x
^
∥
p
\|x-\hat{x}\|_{p}
∥x−x^∥p 最小, 这时对参数
p
p
p 的选择至关重要, 不同的
p
p
p 值将使得逼近误差具有不同 的特性和表现。
如图所示, 为了找出在
A
A
A 中最接近
x
x
x 的点, 可以想 象一个以
x
x
x 为中心不盺膨胀的
ℓ
p
\ell_{p}
ℓp 球, 直到得到它碰到
A
A
A 的点, 该点即为
ℓ
p
\ell_{p}
ℓp 衡量这种逼近误差, 分别具有不同的表现形式。
图 (a) 描述的是
ℓ
1
\ell_{1}
ℓ1 范数下的逼近;图 (b) 表示的是在
ℓ
2
\ell_{2}
ℓ2 范数下的逼近; 图©描述的是在
ℓ
\ell
ℓ 范数下的逼近; 最后, 图 (d) 是在拟范数
ℓ
1
2
\ell _{\frac{1}{2}}
ℓ21 下的逼近。从图中可以看 出, 当
p
p
p 较大时, 误差被均匀地扩散到二维空间中(与
x
x
x 不在同一水平或垂直轴上); 当
p
p
p 较小时, 这种误差的衡量方式将会有很大概率使选择的
x
^
\hat{x}
x^ 与
x
x
x 位于同一水平或垂直轴上, 即非对称地把误差缩小到一维 空间中(减少了一个维度), 从而促进稀疏特性的产生。这个直观的例子不仅可以扩展到多维空间, 同时在整个压缩感知理论的形成过程中 起着举足轻重的作用。
二、基和框架
从数学的角度来说, 任何信号
x
∈
R
N
x \in \mathbb{R}^{N}
x∈RN 可以表示为
x
=
∑
i
∈
J
a
i
ψ
i
x=\sum_{i \in \mathcal{J}} a_{i} \psi_{i}
x=i∈J∑aiψi
在不引起误解的情况下, 有时用表示矢量集合的符号表示矩阵, 如
Ψ
\Psi
Ψ 有时也表示由列向量
ψ
i
\psi_{i}
ψi 构成的矩阵, 其大小为
N
×
N
N \times N
N×N; 同时可以采用 符号
α
\alpha
α 表示由元素
a
i
a_{i}
ai 构成的长度为
N
N
N 的矢量, 则式 (2.3) 就可以有一 的情形,即标准正交基。标准正交基通常定义为:矢量基
Ψ
=
{
ψ
i
}
,
i
∈
J
\Psi=\left\{\psi_{i}\right\}, i \in \mathcal{J}
Ψ={ψi},i∈J 中所有矢量间是正交的而且每个基的范数都为单位 1 , 即
Ψ
⊤
Ψ
=
I
\Psi^{\top} \Psi=I
Ψ⊤Ψ=I, 其中
I
I
I 表示
N
×
N
N \times N
N×N 的单位矩阵。换句话说, 也就是
⟨
ψ
i
,
ψ
j
⟩
=
{
0
,
i
≠
j
1
,
i
=
j
\left\langle\psi_{i}, \psi_{j}\right\rangle= \begin{cases}0, & i \neq j \\ 1, & i=j\end{cases}
⟨ψi,ψj⟩={0,1,i=ji=j
标准正交基的优点是对于任何属于该矢量空间中矢量
x
x
x, 可以很容 易地计算出在该标准正交基表示下的系数
α
\alpha
α, 即
α
=
Ψ
T
x
0
\alpha=\Psi^{\mathrm{T}} x_{0}
α=ΨTx0
通常情况下, 把基的概念推广到一些可能线性相关的矢量集是很 有意义的, 这就形成了常说的框架 (frame) (
[
3
−
5
]
^{[3-5]}
[3−5], 即矢量集
Ψ
=
{
ψ
i
}
i
=
1
N
\Psi=\left\{\psi_{i}\right\}_{i=1}^{N}
Ψ={ψi}i=1N 且
ψ
i
∈
R
d
\psi_{i} \in \mathbb{R}^{d}
ψi∈Rd, 其中
d
<
N
d<N
d<N, 相当于矩阵
Ψ
∈
R
d
×
N
\Psi \in \mathbb{R}^{d \times N}
Ψ∈Rd×N, 对所有矢量
x
∈
R
d
x \in \mathbb{R}^{d}
x∈Rd 满足
A
∥
x
∥
2
2
⩽
∥
Ψ
T
x
∥
2
2
⩽
B
∥
x
∥
2
2
A\|x\|_{2}^{2} \leqslant\left\|\Psi^{T} x\right\|_{2}^{2} \leqslant B\|x\|_{2}^{2}
A∥x∥22⩽∥∥ΨTx∥∥22⩽B∥x∥22
其中,
0
<
A
⩽
B
<
∞
0<A \leqslant B<\infty
0<A⩽B<∞ 。值得注意的是,
A
>
0
A>0
A>0 意味着矩阵
Ψ
\Psi
Ψ 中的行矢量一定是线性独立的。
如果
A
A
A 被选为使这个不等式成立的可能存在的最大值,
B
B
B 被选为使这个不等式成立的可能存在的最小值, 则把它们称为框架界。
如果
A
=
B
A=B
A=B, 则这个框架称为 A-tight, 即紧框架 ; 如果
A
=
A=
A=
B
=
1
B=1
B=1, 则
Ψ
\Psi
Ψ 是一个 Parseval 框架。
若存在某个
λ
>
0
\lambda>0
λ>0, 使得对所有
i
=
i=
i=
1
,
⋯
,
N
1, \cdots, N
1,⋯,N, 都有
∥
ψ
i
∥
2
=
λ
\left\|\psi_{i}\right\|_{2}=\lambda
∥ψi∥2=λ, 则说这个框架是
λ
\lambda
λ 等范数的, 如果
λ
=
1
\lambda=1
λ=1, 则称为是单位范数框架。
需要指出的是, 框架的定义可以推广到无限维的空间中,但如果
Ψ
\Psi
Ψ 是一个有限维矩阵,则
A
A
A 和
B
B
B 分别对应
Ψ
Ψ
T
\Psi \Psi^{\mathrm{T}}
ΨΨT 的最小特征值和最大特征值。由于框架具有一定的冗余性, 所以它可以对目标数据提供更为丰富的表达,即针对一个目标信号矢量
x
x
x, 存在无数个系数矢量
α
\alpha
α, 使得
x
=
Ψ
x=\Psi
x=Ψ 。
三、稀疏信号和可压缩信号模型
为了更精炼地表达一个信号, 通常可以把信号变换到一个新的基或框架下, 当非零系数的个数远远少于原始信号的项数时, 可以把这些少量的非零系数称为原始信号的稀疏性表达。
在压缩感知的理论体系中, 稀疏信号模型可以确保高倍压缩率, 只要预先知道目标信号在已知的基或框架下具有稀疏性表达, 就可以无失真重建原始信号。需要指出的是, 在稀疏性表达的相关研究领域中, 通常把前面小节介绍的基或框架称为字典 (dictionary)或过完备字典 (overcomplete dictionary), 而其中的矢量元素则被称为原子 (atoms)。
从数学的角度来说, 当信号
x
x
x 中最多有
K
K
K 个非零的值时, 称信号
x
x
x 是
K
K
K 稀疏的, 即
∥
x
∥
0
⩽
K
\|x\|_{0} \leqslant K
∥x∥0⩽K, 采用
Σ
K
=
{
x
:
∥
x
∥
0
⩽
K
}
\Sigma_{K}=\left\{x:\|x\|_{0} \leqslant K\right\}
ΣK={x:∥x∥0⩽K}
表示所有
K
K
K 稀疏信号的集合, 可以同样地针对一些本身并不稀疏但存一些基矩阵
Ψ
\Psi
Ψ 中具有稀疏性表达的信号, 这时
x
=
Ψ
a
x=\Psi a
x=Ψa, 其中
∣
a
∥
0
⩽
K
\mid a \|_{0} \leqslant K
∣a∥0⩽K, 则仍把这些信号看成
K
K
K 稀疏的。
关于信号的稀疏性表达研究,并不是压缩感知理论的首创,下面,简要描述一些一维和二维信号的例子。
1.一维信号模型
这里将用一个例子描述用两种不同的基挖掘同一个信号的信息。已知一个周期信号经过一个周期脉冲信号
y
=
sin
(
6
π
k
N
)
,
k
=
1
:
150
y=\sin \left(\frac{6 \pi k}{N}\right), k=1: 150
y=sin(N6πk),k=1:150,
N
=
150
N=150
N=150 采样,如图(a) 所示。由图可以看出这个信号包含了大量的非零项,由于信号的周期性,该信号具有很大的余度。首先采用小波变换,即用有限长或快速衰减的、称为母小波 (mother wavelet) 的振荡波形来表示信号。该波形被缩放和平移以匹配输人的信号。从图(b) 可以看出,经过离散小波变换后这个信号只有较少的非零系数,绝大部分系数为零的或接近零。小波变换经常与傅里叶变换(表示为一系列三角函数的和) 做比较,它们的主要区别是小波在时域和频域都是局部的,而标准的傅里叶变换只在频域上是局部的,而小波通常通过多分辨率分析可以给出信号更好的表示。针对这个特定的信号,傅里叶变换却可以给出更为稀疏的表示, 如图© 所示, 它只包含两个非零值,主要是因为这个时域信号恰好是正弦信号。
2.二维信号模型
同样的稀疏性概念也可以拓展到二维信号, 图像是可以压缩的, 而 稀疏变换是图像压缩的前提。
夜晩星空的二值图像就是一个稀疏信号,因为在空间域或图像域中,大多数像素都是零,只有少数的星星表现为1 。
其实自然界的图像也有类似的表现,自然图像通常是由大面积的平滑区域、纹理区域和少量的边缘构成的。研究表明,这类信号经过多级小波变换后可以表现 出稀疏。小波变换是通过循环地把图像分成低频成分和高频成分来实现的,低频成分主要通过一个更为粗糙的分辨率表示原图,高频成分主要表现为图像的细节和边缘。图(a) 是图像处理领域中最为流行的一幅图像 Lenna (感兴趣的读者请参考附录), 图 (b) 是 绔过三级 Harr 小波变换后的小波系数图像。由图可以看出, 大部分的小波变换后的系数都表现为零或接近零, 这是因为自然图像中的平滑 区域或纹理区域中往往包含较少的高频成分。因而,如果把接近零的小波系数都置为零, 即采用一个适当的阈值, 凡是绝对值小于该阈值的 小波系数强制设为零, 就可以获得一个
K
K
K 稀疏的图像表达, 这也就形成 了基于
K
K
K 个非零元素却可以逼近原始图像的最简洁表达。
四、可压缩信号
需要指出的是,在现实世界中很少有信号是真正稀疏的。当说某个信号可压缩时,更确切地说,这个信号是可以通过稀疏信号近似表达的。同样的道理,存在于子空间的信号可以通过几个较少的主成分来近似表达。可以通过下面的公式定量地计算原始信号
x
x
x 与稀疏表达信号
x
^
∈
Σ
K
\hat{x} \in \Sigma_{K}
x^∈ΣK 之间的误差 :
σ
k
(
x
)
p
=
min
∥
x
−
x
^
∥
p
,
x
^
∈
Σ
K
\sigma_{k}(x)_{p}=\min \|x-\hat{x}\|_{p}, \quad \hat{x} \in \Sigma_{K}
σk(x)p=min∥x−x^∥p,x^∈ΣK
很明显,如果
x
∈
Σ
K
x \in \Sigma_{K}
x∈ΣK, 则无论
p
p
p 取何值, 均有
σ
k
(
x
)
p
=
0
\sigma_{k}(x)_{p}=0
σk(x)p=0 。当
x
x
x 不是 绝对稀疏信号时, 就
ℓ
p
\ell_{p}
ℓp 范数而言, 采用
K
K
K 个幅值最大的稀疏表达信号
x
^
\hat{x}
x^ 通常可以看成最优的近似表达。
事实上还存在一种理解可压缩信号的方式,就是了解信号本身或其在某个变换域中系数的衰减情况。很多信号都具有某类特定的变换基,使得它们的变换系数服从幂指数递减,这就说明该信号在此变换域中具有较强的可压缩性。具体来说,如果
x
=
Ψ
α
x=\Psi \alpha
x=Ψα, 把
x
x
x 的系数
α
\alpha
α 按照幅值的大小排列,如
∣
α
1
∣
⩾
∣
α
2
∣
⩾
⋯
∣
α
n
∣
\left|\alpha_{1}\right| \geqslant\left|\alpha_{2}\right| \geqslant \cdots\left|\alpha_{n}\right|
∣α1∣⩾∣α2∣⩾⋯∣αn∣,如果存在一个常数
C
1
C_{1}
C1 和
q
>
0
q>0
q>0,使得所有系数均满足
∣
α
i
∣
⩽
C
1
i
−
q
\left|\alpha_{i}\right| \leqslant C_{1} i^{-q}
∣αi∣⩽C1i−q
则说这些变换系数服从幂指数递减。
q
q
q 越大,说明系数的幅度下降得越大,因而这个信号的可压缩性越好。由于系数幅度下降得很大,故这类可压缩信号通常可以采用
K
≪
n
K \ll n
K≪n 个系数来近似表达。
如图(a) 所示,Lenna 图像经过三级 Harr 小波变换后,将这些小波系数根据幅值的大小按降序排列,我们可以看出小波系数幅值的下降幅度确实有服从幂指数递减的趋势, 如果只保留其中
10
%
10 \%
10% 较大幅度的小波系数,即把其他小波系数强制设为 0,则经过逆小波变换后, 它的恢复结果如图(b) 所示,用肉眼几乎看不出差异。所以自然图像是很具代表性的一种可压缩信号。
(参考自压缩感知浅析)
总结
该章简要介绍了矢量空间的概念,然后借此引入了基和框架的概念。而在稀疏性表达的相关研究领域中, 通常把前面小节介绍的基或框架称为字典 (dictionary)或过完备字典 (overcomplete dictionary), 而其中的矢量元素则被称为原子 (atoms)。先将概念铺垫,然后讲稀疏性表达,这个东西就是先把信号小波变换,然后把小波系数接近0的取0,之后再反变换回去。用Lenna图检验是还不错的。当说某个信号可压缩时,这个信号是可以通过稀疏信号近似表达的。