读论文：VisIRNet: Deep Image Alignment for UAV-taken Visible and Infrared Image Pairs

老猪心飞扬

已于 2024-06-19 22:46:31 修改

阅读量682

点赞数 23

分类专栏：读论文文章标签：图像处理论文笔记

于 2024-06-12 23:58:04 首次发布

本文链接：https://blog.csdn.net/m0_49016094/article/details/139503968

版权

读论文专栏收录该内容

8 篇文章 1 订阅

订阅专栏

S. Özer and A. P. Ndigande, “VisIRNet: Deep Image Alignment for UAV-Taken Visible and Infrared Image Pairs,” in IEEE Transactions on Geoscience and Remote Sensing, vol. 62, pp. 1-11, 2024, Art no. 5403111, doi: 10.1109/TGRS.2024.3367986.
keywords: {Feature extraction;Cameras;Autonomous aerial vehicles;Prediction algorithms;Image resolution;Deep learning;Computer architecture;Corner-matching;deep learning;image alignment;infrared image registration;Lukas–Kanade (LK) algorithms;multimodal image registration;unmanned aerial vehicle (UAV) image processing},

论文所在期刊：
发布时间：20 February 2024
所在级别：
影响因子：

论文下载
 代码下载

论文笔记

关键词

Multimodal image registration, image alignment, deep learning, Infrared image registration, Lukas-Kanade algorithms, corner-matching, UAV image processing
多模态图像配准，图像对准，深度学习，红外图像配准，lucas - kanade算法，角点匹配，无人机图像处理

提出问题

许多最近提出的最先进的校准技术依赖于使用基于Lucas-Kanade (LK)的解决方案来成功校准。然而，作者可以在不使用基于lk的方法的情况下获得最先进的结果。
主要的经典方法通常是基于寻找和匹配图像对中相似的突出关键点，因此，它们在各种多模态配准应用中可能会产生令人不满意的结果。
相关的深度对齐方法是使用关键点匹配，模板匹配或基于Lukas-Kanade (LK)的方法，这些技术通常考虑图像中的多个点或重要区域来计算包含变换参数的齐次变换矩阵H。然而，有四个匹配点的信息，用它们对应的二维坐标(xi, yi)表示，其中i = 1,2,3,4，就足以估计H。

核心思想

在配准阶段，由齐次变换矩阵(H)表示的变换参数被预测。在注册过程之后，通过将c1、c2、c3和c4的位置定位为c ’ 1、c ’ 2、c ’ 3和c ’ 4，将IIR转换(扭曲)到IRGB空间。
从本质上讲，图像对齐是将来自不同坐标系的像素坐标映射到一个公共坐标系的过程。
作者的注册过程使用基于Homography (H)矩阵的注册函数。H包含8个未知(投影)参数，配准过程的目标是直接或间接地预测这8个未知参数。
作者的方法使用单独的特征嵌入块来分别处理每种模态。训练它提取模态特定的特征，使不同模态的输出特征映射具有相似的特征表示。
透视变换:它将源图像扭曲到目标图像上。单应矩阵由透视变换所需的变换参数组成。3 × 3维单应矩阵的元素表示旋转、平移、缩放和倾斜运动的量。齐次变换矩阵H定义如下
- 其中最后一个元素(p9)设置为1¹，以确保从齐次坐标转换到笛卡尔坐标的有效性。
- 设W(c, P)为将给定坐标c(参数集P (H))映射到目标图像的映射函数:
- 映射过程是齐次坐标系下的线性变换。首先通过在二维笛卡尔像素坐标上增加额外的z维，将笛卡尔坐标转换为齐次坐标系。设ci为像素，坐标为xi, yi。ci的齐次坐标可以通过设置z -轴为1来表示，即chi = (xi, yi, 1)。一旦我们有了齐次变换矩阵，我们将任意给定的第i个像素位置ci (xi, yi)映射为其在另一图像笛卡尔坐标上的映射版本，如下所示：
  - 其中x ’ i y ’ i z ’ i是映射后的齐次坐标，它可以通过除以z ’ i值转换成笛卡尔坐标。
- 因此，我们可以在笛卡尔坐标下得到最终映射的二维像素坐标:c ’ i = (x ’ i, y ’ i)

网络结构

整体框架
- RGB分支和IR分支(特征嵌入块)两个并行分支分别提取RGB和IR图像的显著特征。然后将这些特征按通道连接起来，并输入到回归块中，以进行直接(模型b)或间接(模型a)的单应性预测。即可以训练模型学习ModelB中的齐次变换矩阵，也可以将输入IR图像的四角对应坐标回归到ModelA中的RGB图像上。如果使用ModelB，输出是8维向量(对于H);如果使用modelA，则为8维矢量，其中这8个值对应于IR图像4个角的(x, y)坐标。
- 提出的网络由多模态特征嵌入块(MMFEB)和回归块组成。
回归块负责直接或间接地预测8个单应性矩阵参数。
- 作者研究了他们提出的两个模型变体的性能，称之为ModelA和ModelB。ModelA预测角点的坐标，而它的变体ModelB预测直接齐次变换后的参数。在ModelA中，4个角就足以求出单应矩阵。因此，最后一层有8个神经元，用于ModelA的四个(x, y)角分量，或用于modelB的8个未知的齐次变换参数。
- 回归块使用单应性损失(LH 2)结合平均角误差(LAce)进行训练
- fRGB和fIR是RGB图像和红外图像在特征嵌入块中分别经过各自的特征嵌入块提取的特征映射。请注意，fRGB和fIR具有不同的维度。因此，我们对低维特征映射(fIR)应用零填充，这样我们就可以将其维度带入fRGB的维度，从而得到fIR填充。我们将来自红外和RGB特征嵌入块的firpadding连接到fRGB特征映射，并将其用作回归块的输入。
- 第一部分由6个层次组成。除了最后一层，每一层都由2个子层(子层里面又有三层)组成，然后是一个最大池化层。第6层没有最大池化层。
- 第二部分以relu为激活函数的两个1024密度层，然后是一个dropout层和一个8密度输出层，用于8个齐次变换矩阵参数或角分量。
- 第一部分的特征映射被平面化并传递给第二部分，第二部分根据所使用的模型预测齐次变换矩阵参数（modelB）或角分量（modelA）。
多模态特征嵌入主干:MMFEB负责生成由两个输入图像的精细级特征组成的组合代表性特征集²。
- 分别对RGB图像和红外图像使用了两个结构相同但参数不同的相同网络(分支)。因此，多模态特征嵌入块具有两个架构相同(但不共享参数)的并行分支，即rgb分支和红外分支。
- 首先使用平均相似度损失Lsim来训练多模态特征嵌入主干，为了计算相似度损失，首先生成一个128 × 128的直线网格，表示红外坐标系中的位置，如空间transformer。然后，使用基准单应性矩阵将网格扭曲到RGB坐标系上，从而产生代表投影位置的扭曲曲线网格。使用双线性插值³对RGB特征映射(fRGB)上那些扭曲的位置进行采样。然后，可以计算IR特征图和重新采样的RGB特征图之间的相似度损失。

损失函数

Similarity loss（Lsim）用于训练MMFEB：
- fIR/RGB(x, y)为各自图像特征映射在(x, y)位置处的值。f ’ RGB(x, y)是重新采样的RGB特征映射上(x, y)位置的值。注意(x, y)是受红外图像高度和宽度约束的坐标系上的位置。算法3给出了相似度损失的算法细节。
L2单应性损失项，用于对ModelB进行训练，以预测齐次变换矩阵元素的值。因此，它的输出是一个3x3矩阵的8个元素(其中第九个元素被设置为1)
- 设[pi: (for i = 1,2,3,4,5,6,7,8)， 1]是3 × 3h基准单应性矩阵的元素。同样地，设[φ pi: (for i = 1,2,3,4,5,6,7,8)， 1]是预测的齐次变换矩阵3 × 3 H φ的元素。
ModelB的平均转角误差(Ace)：Ace被计算为角点的预测位置和真实位置之间差的平方和的平均值。使用预测的齐次变换矩阵将红外图像的4个角变换到RGB图像的坐标系中，并结合基准位置计算LAce。
- 设ei为红外图像上(xi, yi)坐标处的一个角，设e′i为其在RGB坐标空间上的映射值，使得e′i = W(ei, P)，其中W为转换函数。
- 其中，D定义为:D(ei, e ’ i) = W(ei, P)−W(ei, P)，其中P和P分别是基准和预测矢量化单应矩阵。
ModelB总损失：L = LH 2 + γ Lace
ModelA的平均转角误差(Ace)：使用了一个稍微修改的LAce版本，使得i成为RGB坐标空间中的基准角坐标
消融实验中的L_MAE和L_SSIM

数据集

使用Skydata1包含RGB和IR图像对，MSCOCO， Google-Maps和Google-Earth(取自DLKFM )， VEDAI数据集。
Skydata
该图显示了如何在注册图像对上选择初始角点以及如何生成训练数据。首先，从原始注册的红外图像中提取随机图像小块。然后将该小块的随机角变换为固定坐标，然后计算执行该变换的H矩阵(及其逆矩阵)。

训练设置

实验

评价指标

不懂的可以看看这个：图像融合网络的通用评估指标

Baseline

SIFT, DHN, MHN, CLKN, DLKFM

实验结果

每个数据集的算法在Ace方面的比较结果。
- 作者使用Ace和单应性误差对模型的性能进行了定量评估。我们根据给定测试集的分位数、平均值、标准差和最小最大值来计算每个算法的结果分布。四分位数是一组描述性统计，它总结了数据的集中趋势和变异性。
表III显示了在我们架构的每个块中使用不同损失函数的消融研究。平均而言，L_sim产生了最好的结果。
ModelA和ModelB在不同超参数(包括批大小和损失函数)下的结果比较。总的来说，与ModelA相比，ModelB取得了更好的结果。在作者的实验中，直接预测齐次变换矩阵是有效的，但它不能像预测直接角点那样最小化配准误差。这些结果是在Skydata数据集上获得的。
每个图显示了不同数据集的MHN, DHN, DLKFM, CLKN, SIFT和我们的算法的平均角误差。
在Skydata的测试集上显示了不同模型的平均角误差分布与图像对的数量。
该图显示了从不同数据集中采集的样本图像对的定性结果。前两列显示了算法的输入图像对。目标图像是192×192像素，源图像是128×128像素(它覆盖了作为目标图像子集的场景)。第三列为源图像在目标图像的坐标系上经过翘曲后的基准版本(192 × 192像素)。第四列显示了源图像覆盖在目标图像(192 × 192像素)上的基准(扭曲)。剩下的6列显示了分别按照SIFT、DHN、MHN、CLKN、DLKFM和我们的方法进行配准后的叠加结果(192×192像素)。视觉上，每个算法的结果可以与第四列中的图像进行比较。
- 虽然几乎所有算法在谷歌Earth对(为目标和源图像提供相似的模态)上都表现得相对较好，但当模态明显不同时，如SkyData、谷歌Maps和VEDAI对，从图中可以看出SIFT、CLKN、MHN、DHN和DLKFM算法可能难以对齐它们，并且它们可能不会收敛到接近基准的任何有用结果(参见SIFT和CLKN结果)，而作者的方法通过为每个样本对产生小的ACE误差而收敛到基准。
每个数据集的算法在Ace方面的比较结果。在表VI(e)中，MSCOCO结果是一个单模态数据集，SIFT表现相对较好，但也有由于对不足而无法找到单应性的情况。©中的谷歌earth也有RGB图像对，但来自不同的季节。SIFT算法仍然能够选择足够多的显著特征，因此性能仍然合理。(d)谷歌地图、(a) SkyData地图和(b) VEDAI地图具有对显著模态差异。基于深度学习的方法通常能够在大量异常值的情况下进行注册。作者的方法能够对单模态和多模态图像对进行配准，特别是与基于lbased的方法相比，能够保持最大误差最小。

传送门

其他笔记

当使用齐次变换矩阵 H 对一个齐次坐标点进行变换时，该点表示为 (x’, y’, w’)。为了将这个齐次坐标变换回笛卡尔坐标系中的 (x, y)，我们必须除以 w’，得到 (x’/w’, y’/w’)。
将矩阵中的最后一个元素 p9 设置为 1 是对变换矩阵的一个常见规定，这保证了齐次坐标到笛卡尔坐标的转换能够简单地通过除以最后一个坐标（w’）来完成。如果 p9 不是 1，那么每次转换后都需要进一步的除法操作来标准化坐标，这将引入额外的计算。 ↩︎
这部分作者是参考另一篇论文的：Deep lucas-kanade homography for multimodal image alignment. CoRR, abs/2104.11693, 2021. ↩︎
参考：E. J. Kirkland. Bilinear Interpolation, pages 261–263. Springer US,Boston, MA, 2010.和P. Monasse. Extraction of the Level Lines of a Bilinear Image. Image Processing On Line, 9:205–219, 2019. https://doi.org/10.5201/ipol.2019.269. ↩︎