IPI模型论文阅读笔记--Infrared Patch-Image Model for Small Target Detection in a Single Image

Glingli

已于 2023-08-23 16:32:16 修改

阅读量568

点赞数 3

分类专栏：自用：文献阅读笔记文章标签：论文阅读计算机视觉深度学习

于 2023-04-07 11:23:34 首次发布

本文链接：https://blog.csdn.net/qq_44852799/article/details/130007839

版权

自用：文献阅读笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

最近在读这篇文章，第一次写论文精读笔记，有错误的地方还请大佬指正。
M. Zhao, L. Li, W. Li, R. Tao, L. Li, and W. Zhang, “Infrared small-target detection based on multiple morphological profiles,” IEEE Trans. Geosci. Remote Sens., vol. 59, no. 7, pp. 6077– 6091, Jul. 2021, doi: 10.1109/TGRS.2020.3022863.
笔记作者：瀚
2023年春于国防科技大学

I. 核心思想

IPI 是单帧检测算法。
通过划窗进行 original image 到 patch-image 的转变。
利用背景的 non-local self-correlation 性质（这个性质作者这里是通过经验得到的），将背景 patch-image 看作是低秩矩阵，利用目标的像素数远少于原图像像素数的特性，可以将目标的 patch-image 看作是稀疏矩阵。
进行 patch-image 的建模以及合理假设。
利用已有的算法（主成分分析法）结合实际模型和假设进行稀疏矩阵和低秩矩阵的恢复。从而将目标检测问题转化为低秩矩和稀疏矩阵的恢复问题。
通过叠窗并通过滤波器的方法完成 patch-image 到 original image 的转变。

II. 作者为什么会提出该模型

A. 传统算法的不足

很多时候图像序列的背景变化会很快，用以往的基于序列的或者相邻帧一致目标的方法效果都不好。

由于反舰导弹、高速飞机等许多目标具有很高的速度，成像背景通常变化很快。另一方面，具有快速移动传感器平台（例如基于飞机和导弹的 IRST 系统）的应用也会导致快速变化的背景，即使感兴趣的目标在大多数时间可能保持静止。此外，这些应用通常会使目标的运动轨迹不一致。
一些方法是认为小目标符合高斯特性进行建模的，即形状大致为圆形，不存在各向异性和主导方向。

高斯模型：
$\gamma e^{-\frac{1}{2}((\frac{x}{\sigma_x})^2+(\frac{y}{\sigma_y})^2)}$
作者举出的反例：

显然图像里的目标均不符合高斯分布。
一些方法对于噪声敏感，例如 TopHat 等传统方法，他们通常关注背景图像 $f_B$ 。对于目标大尺寸时或者出现噪声时，他们往往工作不好。

这些方法的模型通常可以表述为
$f(T)=f(D)-f(B)\tag{1}$
The $f (T)$ is the target, the $f (D)$ is the original image and the $f (B)$ is the backgorund.
由此我们可以知道，想要得到滤波结果，必须有目标尺寸或灰度值这些先验信息。而目标尺寸这一信息并不是常常可以得到的。

B. 本文提出的模型

使用局部补丁算法构建模型 Infrared patch-image (IPI) 模型，将原本（1）的模型进行推广。

IPI 模型可以表述为如下的形式：
$B+T+N\tag{2}$
其中 $N$ 为噪音补丁，其他的和（1）中的命名方法类似。

由于弱小目标的像素占比小特性，可以将 $T$ 看作是一个稀疏矩阵，另外证明 $B$ 是一个低秩矩阵。

这里做出这样假设的动机主要基于观察到红外背景图像中远处区域的局部块通常彼此近似线性相关。因此，认为由局部补丁构建的背景补丁图像往往是低秩矩阵。同时，将 $T$ 看作是稀疏矩阵，不需要目标尺寸、灰度值等先验信息。non-local self-correlation

根据前述，将小目标检测任务转化为恢复低秩矩阵和稀疏矩阵的优化问题。

Use patch to reconstruct the origien image to the $T$ and $B$ , which is sparse matrix and low-rank matrix. Then trans the problem from ‘small target detection’ into ‘recovering the low-rank and sparse matrices’

C. 本文所提出的模型的优势

提出的算法符合事实，鲁棒性更强，应用场景更宽泛。

符合事实体现在：在 small target recognition 问题中，几乎所有的目标尺寸都远小于图像尺寸。所以背景补丁图像的假设是成立的。

鲁棒性更强以及应用场景更广体现在：不需要先验的知道 background 的秩和 target 的尺寸信息，就可准确的恢复 backgorund patch-image & target patch-image.

所提出的 IPI 模型可以在缺少先验信息的前提下依然通过已有的 低秩矩阵恢复技术^[*] 有效地解决，即算法是以现有技术可以立马实现的。

作者给出了如下的文献，并表明利用这些文献中的低秩矩阵恢复算法，不需要先验的知道 background 的秩和 target 的尺寸信息，就可准确的恢复 backgorund patch-image & target patch-image.

[*]
E. J. Candés, X. Li, Y . Ma, and J. Wright, “Robust principal component analysis?” J. ACM, vol. 58, pp. 1–37, May 2011.
Z. Zihan, L. Xiaodong, J. Wright, E. Cande, and M. Yi, “Stable principal component pursuit,” in Proc. IEEE ISIT, Jun. 2010, pp. 1518–1522.
D. Meng and F. De la Torre, “Robust matrix factorization with unknown noise,” in Proc. ICCV, 2013.
D. Meng, Z. Xu, L. Zhang, and J. Zhao, “A cyclic weighted median method for l1 low-rank matrix factorization with missing entries,” in Proc. AAAI, 2013.

III. 模型介绍

A. patch-image 的构建方法

具体的构建步骤如图所示：
在这里插入图片描述

original image 2 patch-image：

首先进行从左上到右下的划窗，之后将窗按列向量展开拼接成新的图像，称之为 patch-image。在窗到列向量的转换时，采取按列展开的方法。即 patch = patch_window(:)。

patch-image 2 original image：

将 patch-image 重新升维，然后堆叠构成原图像。对于其中重叠像素部分，采取将这些像素通过 filter 的方法来确定最终像素值。在这里滤波器可以是 median(x), mean(x), max(x), min(x) 等等。

B. Infrared patch-image 模型

IPI模型表述为：
$\tag{2}$
The $D$ , $B$ , $T$ , $N$ corresponding $f_D$ , $f_B$ , $f_T$ , $f_N$ respectively.

C. Target Patch-Image 模型

目标的 patch-image 表述为：
$||T||_0<k \qquad k\ll m \cdot n \tag{3}$
$T$ 的零范数表示其中非零的数量， $m, n$ 表示目标尺寸。

D. 背景 patch-image 模型

模型表示如下：
$rank(B)\le r \tag{4}$
其中 $r$ 是常量， $r$ 的值理论上限制了背景图像的复杂性。在复杂的背景中 $r$ 应该大于均匀背景中的 $r$ 值。

这里作者通过举例了几个具有代表性的图像，通过 patch-image 的构建，计算其奇异值，发现奇异值迅速衰减到0（奇异值和秩的关系是什么？我下去补充一下这部分的知识）。所以作者认为所有的红外小目标图片背景都应该对模型成立。

作者还说可以采用最近提出的更一般的低秩假设，即所有背景块都来自低秩子空间簇的混合，而不仅仅是一个^[*]。当小目标位于高度异构的背景中时，这种多子空间簇假设可能更合适。但是为了模型的整洁型，并没有更多的进行探寻。
[*]
L. Guangcan, L. Zhouchen, Y . Shuicheng, S. Ju, Y . Y ong, and M. Yi, “Robust recovery of subspace structures by low-rank representation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 35, no. 1, pp. 171–184, Jan. 2013.

E. 噪音 patch-image 模型

假设噪声是独立同分布的（independent and identically distributed）。且假设 $N$ 的 F 范数不超过 $\delta$ ：
$||D-B-T||_F \le \delta \tag{5}$

F 范数为矩阵内各个元素平方和的开方。

这个假设表示在这篇文章中，随机噪声的每个样本都是从相同的分布中独立地抽取的，并且每个样本的抽取过程互相独立，彼此之间没有任何关联。这是很多统计学和机器学习方法的基本假设之一，它允许我们使用简单的概率模型来描述数据的性质和特征

作者还提到了即使这些模型中有 $\quad r \quad \delta$ ，且因不同图像而异，但是不需要知道他们的值。这是因为后面这些值所约束的变量都被其他的东西替代了为了简化运算。例如作者为了简便计算，使用 $B||_*$ 替代了 $r ank (B)$ ，使用 $T||_1$ 替代了 $T||_0$ . 同时所用的算法条件很宽泛^[*]，并不需要预先对 $\quad r \quad \delta$ 进行估计。
[*]
J. Wright, A. Ganesh, S. Rao, and Y. Ma, Robust principal component analysis: Exact recovery of corrupted low-rank matrices via convex optimization, submitted to Journal of the ACM, (2009).
注：这篇文章提供了对于 假设 $D = A + E$ 其中有 $A$ 是需要被恢复的 low-rank matrix， $E$ 是一个任意大小的误差，但是要满足仅影响 $D$ 的一小部分，即 $E$ 是一个稀疏矩阵 的还原的方法，即通过解决一个凸优化问题进行原始问题的求解。但是不够快，所以本文作者用了另一个基于此论文的方法。但是上述论文是首先提出这个替代解决方案的。

IV. 模型的解（不解怎么写后面的测试，不测试怎么说明模型效果优越）

A. 解决问题的思路，原理

我们总的来说是 get $f_T$ from $f_D$ . 那么注意，the $f_T$ can be reconstructed from $T$ . So all we want now is to estimate $T$ effectively.

首先作者进行简化问题，认为模型中不存在 $N$ .

那么小目标检测任务本质上是一个典型的从数据矩阵 $D$ 中恢复低秩成分 $B$ 和稀疏成分 $T$ 的问题。这个问题可以通过主成分追踪（PCP）有效地解决，以解决以下凸优化问题得到如下方程^[*]：
$min_{B,T}||B||_*+\lambda ||T||_1 \qquad\qquad s.t.\quad D=B+T \tag{6}$

这个表达式代表了一个优化问题，目标是找到满足给定约束条件并最小化目标函数的矩阵B和T的值：最小化矩阵B的核范数（奇异值之和）加上矩阵T的L1范数，同时满足矩阵D等于矩阵B和T的和的约束条件。

这里， $B||_*$ 表示矩阵B的核范数，即B的奇异值之和，而 $T||_1$ 表示矩阵T的L1范数，即T中所有元素的绝对值之和。参数λ是一个正标量，它控制着目标函数中矩阵B的核范数和矩阵T的L1范数之间权衡的重要性。

作者为了简便计算，使用 $B||_*$ 替代了 $r ank (B)$ ，使用 $T||_1$ 替代了 $T||_0$ . 为什么可以这样替换呢？在这里给出了答案^[**]。
[*]
-J. Wright, A. Ganesh, S. Rao, and Y. Ma, Robust principal component analysis: Exact recovery of corrupted low-rank matrices via convex optimization, submitted to Journal of the ACM, (2009).
[**]
-E. Candes and B. Recht. Exact matrix completion via convex optimzation. Foundations ofComputational Mathematics, to appear.
-A. Montanari R. Keshavan and S. Oh. Matrix completion from a few entries. preprint, 2009.
-E. Candes and T. Tao. The power of convex relaxation: Near-optimal matrix completion. IEEE Transactions on Information Theory, submitted for publication.
-E. Candes and Y. Plan. Matrix completion with noise. Proceedings ofthe IEEE, to appear.

**然后在 IPI 中加入噪声 $N$ . **

改写公式（6），将约束设为噪声 patch-image 的约束。
$min_{B,T}||B||_*+\lambda ||T||_1 \qquad\qquad s.t.\quad ||D-B-T||_F \le \delta \tag{7}$
解决（7）就可以完成对 $B$ 和 $T$ 的估计。但是这里作者没有进行（7）的求解，而是求解下式对偶式：
$min_{B,T}||B||_*+\lambda ||T||_1+ \frac{1}{2\mu} ||D-B-T||^2_F \tag{8}$
其中 $\mu$ 仍然是一个权重因子。这是一个（7）的对偶问题，解决它就可以解决（7）。为甚解决（8）？因为作者手里有解决（8）更快的方法。即使用 Accelerated Proximal Gradient (APG) ^[*]可以快速解出这个方程（8）。

[*]
Z. Lin, A. Ganesh, J. Wright, L. Wu, M. Chen, and Y . Ma, “Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix,” in Proc. CAMSAP, 2009, pp. 1–18.

B. 具体算法

总体的设计图如图所示：

在这里插入图片描述

将原始图像转换为patch-image，即上面所说过的patch-image的构建。
获得目标patch-image和背景patc-image，具体的算法如下：

在这里插入图片描述

这是一个迭代公式，可以逐步逼近最优的 $B$ 和 $T$

$k$ 是一个循环次数计数器

$Y_k^B$ 是 $B$ 的第 $k$ 个中间结果， $Y_k^T$ 是 $T$ 的第 $k$ 个中间结果

$G_k^T$ 是综合了 $B 和 T 的一个中间结果$

svd() 表示对一个矩阵进行奇异值分解。返回的数据类型是三个矩阵，分别表示原矩阵的左奇异向量矩阵、奇异值矩阵和右奇异向量矩阵。具体来说，设原矩阵为 $A$ ，则进行奇异值分解后，返回的三个矩阵分别记为 $U$ 、 $\Sigma$ 和 $V$ ，满足 $A=U\Sigma V^T$ 。其中， $U$ 是一个 $m\times r$ 的矩阵， $V$ 是一个 $n\times r$ 的矩阵， $\Sigma$ 是一个 $r\times r$ 的对角矩阵， $r$ 是 $A$ 的秩。

$S_\epsilon[x]$ 是一个软阈值，表述如下：

在Algorithm1中参数选择部分，选择结果如下：

在这里插入图片描述

将处理结果进行反变换，即patch-image 2 image，这里将背景和目标的patch-image都进行了变换。其中滤波器选择中值滤波器，作者通过实验得到其相较于均值滤波器具有更好的鲁棒性。
通过对目标图像设置阈值，进行目标图的处理。根据亮度信息进一步剔除其中的假目标。

$t_{up}=max(v_{min},\mu +k\sigma)$

$t_{down}=min(v_{min},\mu -k\sigma)$

其中 $\mu 和 \sigma 分别是f_T的均值和标准差$ ， $k和v_{min}是通过经验得到的常量$ 。第一个式子用来筛选“亮”的目标，第二个用来筛选“暗”的目标。其余的都当作假目标被剔除。

IV. 基于该算法的测试

还没写

附录

凸优化问题的原理

Robust principal component analysis: Exact recovery of corrupted low-rank matrices via convex optimization

A. 文章所解决的问题

假设 $D = A + E$ 其中有 $A$ 是需要被恢复的 low-rank matrix， $E$ 是一个任意大小的误差，但是要满足仅影响 $D$ 的一小部分，即 $E$ 是一个稀疏矩阵。

B. 本文的做法

为了将高度非凸的L0范数转化为易于求解的凸优化问题，我们可以采用L1范数作为凸代理。L0范数表示向量中非零元素的数量，通常用于稀疏表示和压缩感知等问题。但由于L0范数是一个非凸函数，因此求解L0范数最小化问题是一个非常困难的优化问题。相比之下，L1范数是一个凸函数，可以更容易地求解。因此，我们可以将L1范数作为L0范数的凸代理，以获得一种更容易求解的优化问题。

相似的采用了类似的凸松弛，使用核范数（或奇异值之和）取代了高度非凸矩阵秩。