3.2 Compressed Sensing
- Compressed Sensing翻译过来为压缩感知,Terrance Tao(陶哲轩)和Emmanuel Candes其原本为了:
Interestingly, the incredibly important collaboration between Emmanuel Candès and Terrance Tao began with them discussing the odd properties of signal reconstruction at their kids’ daycare.
有趣的是,Emmanuel Candès和Terrance Tao之间极其重要的合作始于他们在孩子的日托中心讨论信号重建的奇怪特性。
之所以提到这句话,是为了不要受到书中偏重于稀疏测量影响而造成的误解,即压缩感知主要是为了在缺少大部分信息的情况下重建信号,而书中有所强调为了更少测量或者储存原始数据而稀疏测量,当然两种强调都可以。但后者更广义更容易理解。而且这个观点是与后面“Disclaimer”一节中的内容是类似的,即压缩感知在图像信息采集的过程中并不实用,这里的约束是计算量。
压缩感知可以分为感知和压缩两个过程,感知指的是测量,即数据采样:
y = C x \mathrm{y=Cx} y=Cx
其中 C \mathrm{C} C为测量矩阵,代表着测量的方式,更确切的说是采样方式。
而压缩指的是利用采样得到的数据(虽然本身已经算是稀疏采样了)再次进行稀疏,得到稀疏矩阵 s \mathrm{s} s,进而实现数据压缩,利于信息传递:
y = C Ψ s = Θ s \mathrm{y}=\mathrm{C}\mathrm{\Psi s}=\Theta\mathrm{s} y=CΨs=Θs
显然压缩感知是结合了 randomized linear algebra(Section 1.8)和 Sparsity and Compression两个内容(Section 3.1)
值得注意的是稀疏矩阵 s \mathrm{s} s的稀疏不只是说大部分值为0,还有很多很小的值,只有少数几个量的值很大。那么如果大部分值不为0但是很小是否可以?????(见Figure 3.7,3.14)
- ∣ ∣ ⋅ ∣ ∣ 0 ||\cdot||_{0} ∣∣⋅∣∣0—— ℓ 0 \ell_{0} ℓ0 pseudo-norm
求解 y = C Ψ s = Θ s \mathrm{y}=\mathrm{C}\mathrm{\Psi s}=\Theta\mathrm{s} y=CΨs=Θs中的 s \mathrm{s} s,这个问题是一个优化问题,一般使用 ℓ 0 \ell_{0} ℓ0 pseudo-norm求解:
s ^ = arg min s ∣ ∣ s ∣ ∣ 0 , s u b j e c t t o y = C Ψ s \hat{\mathrm{s}}=\argmin_{\mathrm{s}}||\mathrm{s}||_{0},\hspace{4pt}\mathrm{subject} \hspace{4pt} \mathrm{to}\hspace{4pt}\mathrm{y}=\mathrm{C}\mathrm{\Psi s} s^=sargmin∣∣s∣∣0,subjecttoy=CΨs
但是上述的求解需要扫遍所有的不同 K K K下的 s \mathrm{s} s(但是书中表述为 n n n和 K K K的组合,但实际上 n n n是一定的,当然可能本身说的是 C \mathrm{C} C或者 Ψ \Psi Ψ的矩阵大小,其值会变化,维度为 n n n),计算量较大,如果将上述公式加一个约束条件,则会减少变化量个数的自由度,即使用 ℓ 1 \ell_{1} ℓ1-minimization:
s ^ = arg min s ∣ ∣ s ∣ ∣ 1 , s u b j e c t t o y = C Ψ s \hat{\mathrm{s}}=\argmin_{\mathrm{s}}||\mathrm{s}||_{1},\hspace{4pt}\mathrm{subject} \hspace{4pt} \mathrm{to}\hspace{4pt}\mathrm{y}=\mathrm{C}\mathrm{\Psi s} s^=sargmin∣∣s∣∣1,subjecttoy=CΨs
其中 ∣ ∣ ⋅ ∣ ∣ 1 ||\cdot||_{1} ∣∣⋅∣∣1为 ℓ 1 \ell_{1} ℓ1范数:
∣ ∣ s ∣ ∣ 1 = ∑ k = 1 n ∣ s k ∣ ||\mathrm{s}||_{1}=\sum_{k=1}^{n}|s_{k}| ∣∣s∣∣1=k=1∑n∣sk∣
使用这个优化约束条件需要满足两个条件:
- 测量矩阵 C \mathrm{C} C需要与稀疏基矩阵 Ψ \Psi Ψ不相干,不相干指的是 C \mathrm{C} C的行与 Ψ \Psi Ψ不相关;
- 测量数量(the number of measurements)
p
p
p需要足够大,其数量级为:
p ≈ O ( K log ( n / K ) ) ≈ k 1 K log ( n / K ) p\approx \mathcal{O}(K\log (n/K))\approx k_{1}K\log(n/K) p≈O(Klog(n/K))≈k1Klog(n/K)
其中 k 1 k_{1} k1与 C \mathrm{C} C和 Ψ \Psi Ψ的相关程度有关。注意 p p p为一次测量中的数据个数,原始数据维度为 n n n。
- Why not Shannon-Nyquist sampling theorem?
为何随机稀疏采样可以以低于Nyquist采样频率去做采样?这个应该与其背后不同的数学理论有关,即确定的信息理论与随机信息理论,还有有无先验信息的不同,随机稀疏采样的前提,一个是可稀疏,一个是,,,,
3.6 Sparse Representation
Figure 3.14中的 Θ \Theta Θ是什么?
Figure 3.14中的Flatten
操作指的是把像素堆叠起来?如果是这样,则
y
\mathrm{y}
y必须为一列吗?
Person?