TarDAL

最新推荐文章于 2024-07-15 18:42:14 发布

越过小山丘

最新推荐文章于 2024-07-15 18:42:14 发布

阅读量3.6k

点赞数 4

文章标签：目标检测红外-可见光融合对抗学习双层优化多模态基准

本文链接：https://blog.csdn.net/qq_38766127/article/details/125530671

版权

Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection

要点：Target-aware Dual Adversarial Learning（方式）、Multi-scenario Multi-Modality Benchmark（benchmark）、Fuse Infrared and Visible for Object Detection（利于目标检测的融合）
大连理工大学软件学院 liu jinyuan
CVPR2022 oral
摘要
以前的：以前的方法发现了两种模式下的共同点，并通过迭代优化或深度网络融合在共同空间上。
不足：这些方法忽略了隐含互补信息的模态差异对于融合和后续检测任务都极为重要。
贡献：
（1）network：本文针对融合和检测的联合问题提出了一个双层优化公式，然后展开到一个目标感知双对抗学习（TarDAL）网络进行融合和一个常用的检测网络。具有一个生成器和双鉴别器的融合网络在学习差异的同时寻求共同点，它保留了来自红外的目标结构信息和来自可见光的纹理细节。
（2）benchmark：构建了一个带有校准的红外和光学传感器的同步成像系统，并收集了目前覆盖广泛场景的最全面的基准。
实验及结果：在几个公共数据集和我们的基准上进行的大量实验表明，我们的方法不仅输出视觉上吸引人的融合，而且比最先进的方法输出更高的检测 mAP。
开源：源代码和基准可在 https://github.com/dlut-dimt/TarDAL
1.Introduction
【技术发展背景】多模态成像在监控[28]和自动驾驶[5]等广泛的应用中引起了广泛关注，特别是红外和可见光传感器的结合对于后续的智能处理具有显着的优势[11,38,39]。可见光成像在良好定义的照明条件下提供具有高空间分辨率的丰富细节，而红外传感器捕捉物体发出的环境温度变化，突出显示对照明变化不敏感的热目标结构。不幸的是，红外图像通常伴随着空间分辨率较低的模糊细节。由于它们明显的外观差异，融合具有视觉吸引力的图像和/或支持更高级别的视觉任务，如分割 [4,29]、跟踪 [2,7] 和检测 [32]，通过充分利用利用红外和可见光的互补信息。
【技术发展】在过去的几十年中，已经开发了许多旨在提高视觉质量的红外和可见图像融合 (IVIF) 方法。传统的多尺度变换 [10, 24]、优化模型 [16, 20, 41]、备用表示 [37, 43] 和子空间方法试图发现两种模态的内在共同特征，并为融合设计适当的加权规则.这些方法通常必须调用耗时的迭代优化过程。最近，当冗余准备好的图像对可用于训练时，研究人员通过学习强大的特征表示和/或加权策略将深度网络引入 IVIF [8,12,21–23,35]。融合结果证明是一种有效的推理过程，可产生卓有成效的质量改进。
【现有技术的不足】然而，无论是传统的还是深度 IVIF 方法都在努力提高质量，而忽略了后续检测，这是许多实际计算机视觉应用的关键。融合更强调“求同存异”，而忽略了这两种方式在呈现目标的结构信息和环境背景的纹理细节方面的差异。这些差异对于区分目标的不同特征以进行目标检测具有关键作用，同时产生有利于人类检查的高对比度清晰外观。
此外，从这些差异中学习（实际上是互补信息）需要从两种模式中全面收集成像数据。在随照明和天气变化的场景中捕获的图像表现出与两种模式显着不同的特征。不幸的是，现有的数据收集仅涵盖有限的条件，为学习补充信息和验证有效性设置了障碍。
【本文解决这项技术不足上做的工作】本文针对融合和检测的联合问题提出了一种双层优化公式。该公式展开为精心设计的双对抗融合网络，由一个生成器和两个目标感知鉴别器以及一个常用的检测网络组成。一个鉴别器将前景热目标与红外成像的图像域区分开来，而另一个鉴别器将背景纹理细节与可见图像的梯度域区分开来。我们还推导出了一种合作训练策略来学习两个网络的最佳参数。图 1 表明，与最先进的技术 (SOTA) 相比，我们的方法以更少的时间和更少的参数准确地从目标不同和视觉吸引力的融合中检测到对象。我们的贡献有四方面：
【创新点】
• 我们采用双层优化公式同时采用图像融合和对象检测，产生高检测精度以及具有更好视觉效果的融合图像。
• 我们设计了一个目标感知双对抗学习网络（TarDAL），用于面向检测的融合具有更少的参数。这个单生成器和双鉴别器网络“在从差异中学习的同时寻求共同点”，它保留了来自红外的目标信息和来自可见光的纹理细节。
• 我们从双层公式推导出一个合作训练方案，为快速推理（融合和检测）产生最佳网络参数。
• 我们构建了一个带有校准良好的红外和光学传感器的同步成像系统，并收集了一个多场景多模态数据集 (M3FD)，其中包含 4、177 个对齐的红外和可见图像对和 23、635 个注释对象。该数据集涵盖了具有各种环境、光照、季节和天气的四种主要场景，具有广泛的像素变化，如图 1 所示。
2.Related Works
融合模块对于从多模态传感器检测物体至关重要。本节简要回顾了以前与我们密切相关的基于学习的 IVIF 方法以及学习和实证评估所必需的可用基准。
2.1. Learning-based approaches
【图像融合的深度学习方法】由于多层神经网络强大的非线性拟合能力，深度学习在低级视觉任务[12、15、17、19、23、25、35、40]中取得了可喜的进展。早期的工作将深度网络插入 IVIF 过程中，作为特征提取或权重生成的模块 [8、12、13、16]。刘等人。 [16] 级联了两个预训练的 CNN，一个用于特征，另一个用于权重学习。研究人员还采用端到端架构，以便一步网络推理可以通过一组网络参数生成合理的融合图像。李等人。 [9] 引入了残差融合网络来学习公共空间中的增强特征，从而产生有利于人工检查的结构一致结果。最近，基于生成对抗网络 (GAN) [26, 36, 42] 的 IVIF 方法通过将不同的分布传输到所需的分布来产生吸引人的结果 [21-23]。 Ma等人第一次。引入了融合和可见之间的对抗游戏，以增强纹理细节[22]。然而，这种信号对抗机制可能会丢失红外线的重要信息。马等人。对可见光和红外线应用相同的对抗策略，这部分补偿了红外线信息[21]。不幸的是，所有这些方法都未能捕捉到这两种成像类型的不同特征。值得研究这些互补的差异，融合和检测都可以从中受益。
2.2. Benchmarks
【双光融合数据集】近年来，我们见证了 IVIF 基准的快速发展，包括 TNO Image Fusion [33]、INO Videos Analytics1、OSU Color-Thermal2、RoadScene [35] 和多光谱数据集 [32]。
TNO 数据集 [33] 是 IVIF 最常用的公共可用数据集，其中包含 261 对白天和夜间的多光谱图像。
INO 数据集由加拿大国家光学研究所提供，包含对齐的红外和可见光对。它有助于为具有挑战性的环境中的视频分析应用开发多种传感器类型。
OSU 色热数据库是为基于融合的对象检测而建立的，其中包含 285 对注册的红外和彩色可见图像。白天，整个数据集是在俄亥俄州立大学校园的一条繁忙道路上收集的。
徐等人。发布了 Roadscene，在包含丰富物体（例如车辆和行人）的道路场景中拍摄了 221 个对齐的红外和可见光对 [35]。
拓海等人。 [32] 提出了一种用于自动驾驶的新型多光谱数据集，该数据集由 RGB、NIR、MIR 和 FIR 图像以及带注释的对象类别组成。
表 1 列出了这些数据集的概况，例如规模、分辨率、照明和场景类别。图像分辨率低、对象和场景类型数量有限以及标签很少，阻碍了现有数据集在多模态更高级别检测任务中的广泛应用。

3.The Proposed Method
三部分：
bilevel optimization formulation of fusion and detection
the target-aware dual adversarial learning network for fusion
a cooperative training scheme to learn optimal parameters for both fusion and detection
3.1. Problem formulation
both visual inspection and computer perception,namely detection-oriented fusion，不仅仅是catering for high visual quality。
假设：
x,y,u——红外、可见光、融合图（gray-scale with the size of m × n）
Ld——是特定于检测的训练损失
Ψ——有可学习参数 ωd 的检测网络。
f(·)——基于能量的保真度项，包含融合图像 u 和源图像 x 和 y
gT (·) 和 gD (·)——分别是定义在红外和可见光上的两个可行性约束
根据 Stackelberg 的理论 [14, 18, 27]，我们将面向检测的融合制定为双层优化模型：

图 2(a) 说明这种双层公式可以找到相互支持融合和检测的解决方案。然而，解决方程式并非易事。

通过传统的优化技术作为融合任务不是简单的等式/不等式约束。相反，我们引入了一个具有学习参数 ωf 的融合网络 Φ，并将双层优化转换为单层：

因此，我们将优化展开为两个学习网络 Φ 和 Ψ。我们采用 YOLOv5作为检测网络 Ψ 的主干，其中 Ld 也遵循其设置，并仔细设计融合网络 Φ 如下。
3.2. Target-aware dual adversarial network
典型的深度融合方法努力学习两种不同模式下的共同特征。相反，我们的融合网络寻求共同点，同时从暗示这两种成像的互补特征的差异中学习。通常，红外线突出目标的不同结构，而可见光则提供背景的纹理细节。
我们引入了一种对抗性游戏，该游戏由一个生成器和两个鉴别器组成，以便将两种模式的共同特征与不同特征结合起来，如图 2(b) 所示。鼓励生成器 G 提供逼真的融合图像以同时欺骗两个鉴别器。目标鉴别器 DT 评估来自红外的目标与从 G 给出的融合中屏蔽的目标之间的强度一致性（图 2（b）的顶行）；细节鉴别器 DD 将可见的梯度分布与融合的梯度分布区分开来（图 2(b) 的底行）。这两个鉴别器在不同的域中工作，因为目标表现出一致的强度分布，而梯度则表征纹理。
生成器：
生成器有助于生成融合图像，该图像保留整体结构并保持与源图像相似的强度分布。常用的结构相似性指数（SSIM）[34]作为损失函数：

其中 LSSIM 表示结构相似性损失。为了平衡源图像的像素强度分布，我们引入了基于显着度权重（SDW）的像素损失。假设 x 在第 k 个像素的显着性值可以通过

获得。其中 x(k) 是第 k 个像素的值，Hx 是像素值 i 的直方图，我们将像素损失 Lpixel 定义为：

我们采用 5 层密集块 [6] 作为 G 来提取共同特征，然后使用具有三个卷积层的合并块进行特征聚合。每个卷积层由一个卷积操作、批量归一化和 ReLU 激活函数组成。生成的融合图像 u 与源具有相同的大小。
目标和细节鉴别器：
目标鉴别器DT用于将融合结果的前景热目标与红外区分开来，而细节鉴别器DD用于将融合结果的背景细节与可见光区分开来。我们采用预训练的显着性检测网络 [3] 从红外图像计算目标掩码 m，以便两个鉴别器可以在各自的区域（目标和背景）上执行。因此，我们定义了对抗性损失：

[3] R3net：用于显着性检测的递归残差细化网络

其中 R = x m 和 R^ = 1 -R，将目标与背景区分开来， 表示逐点乘法。 ∇(·) 表示梯度运算，例如 Sobel。这些判别器的对抗性损失函数计算 Wasserstein 散度，以相互识别前景热目标和背景纹理细节是否真实，定义为：

其中 ∼r(x) 表示与 ∼p(x) 相似的样本空间。通常，k 和 p 分别设置为 2 和 6。
两个判别器 DT 和 DD 共享相同的网络结构，具有四个卷积层和一个全连接层。图 3 展示了生成器和双重鉴别器的详细架构。
总的来说，Lf 是上述三个主要部分的组合：

其中 α 和 β 是权衡参数。

3.3. Cooperative training strategy
双层优化自然衍生出一种合作训练策略来获得最优的网络参数ω = (ωd, ωf)。我们引入了一个融合正则化器 Lf 并转换 Eq。 (3) 将融合约束下的检测优化为相互优化：

其中 λ 是权衡参数。该正则化器无需设计加权规则，而是可以很好地平衡融合和检测。
图 2（c）说明了梯度传播的流程，以协同训练融合和检测网络。关于 ωd 和 ωf 的损失梯度计算如下：

这些方程揭示了检测损失 w.r.t 的梯度。检测参数以及那些 w.r.t.融合参数都是反向传播的，后者还包括融合损失 w.r.t 的梯度。融合参数。
最后，该策略不仅可以生成视觉上吸引人的图像，还可以在给定训练好的网络参数的情况下输出准确的检测，使我们能够找到面向检测的融合的最佳解决方案，并且比独立训练方案更有效地收敛。
4. Multi-scenario Multi-modality Benchmark
现有的具有红外和可见图像的数据集很难用于从多模态数据中学习和/或评估检测。我们的基准 M3FD 包含高分辨率的红外和可见图像，涵盖各种场景下的各种对象类型，如表 1 的最后一行所示。

我们构建了一个包含一个双目光学相机和一个双目红外传感器的同步系统（如图 5 所示），以捕获自然场景的相应双模态图像。可见光和红外双目相机的基线（双目镜头焦心之间的距离）分别为 12 厘米和 20 厘米。可见光传感器和红外传感器之间的光学中心距离为 4cm。可见光图像具有1024×768的高分辨率和宽广的成像范围，而红外图像的标准分辨率为640×512，波长范围为8-14μm。我们首先校准所有相机以估计它们的内部和外部参数，然后计算一个单应矩阵，将红外图像的坐标投影到可见光的坐标。最终，我们通过将所有图像扭曲到一个共同的坐标，获得了大小为 1024 × 768 的对齐良好的红外/可见图像对。我们将 M3FD 中的所有 4、200 个对齐对分为四种典型类型，即 Daytime、Overcast、Night 和 Challenge，其中有 10 个子场景如图 4 所示。同时，我们注释了 6 个类别的 33、603 个对象，即 People , 汽车, 公共汽车, 摩托车, 卡车和灯, 常见于监控和自动驾驶。 M3FD 的数量和多样性为通过融合图像学习和评估目标检测提供了可能。

Experiments
我们对四个数据集进行了实验评估（三个用于 IVIF，即 TNO、Roadscene 和 M3FD，两个用于对象检测，即 MS 和 M3FD）。选择 180/3,500 张多模态图像并通过随机裁剪和增强分别裁剪为 320×320 像素的 24k/151k 块，用于训练融合和检测任务。调整参数 α 和 β 分别设置为 20 和 0.1。 Adam 优化器以 1.0 × 10−3 的学习率和指数衰减更新网络参数。 epoch 设置为 300，批量大小为 64。我们的方法是在 PyTorch 上使用 NVIDIA Tesla V100 GPU 实现的。
5.1. Results of infrared-visible image fusion
我们通过与 7 种最先进的方法进行比较来评估 TarDAL 的融合性能，包括 DenseFuse [8]、FusionGAN [22]、RFN [9]、GANMcC [23]、DDcGAN [21]、MFEIF [ 12]和U2Fusion [35]。

定性比较来自三个数据集的三个典型图像对的直观定性结果如图 6 所示。与其他现有方法相比，我们的 TarDAL 具有两个显着优势。首先，可以很好地保留红外图像中的判别目标。如图6（第二组的绿色缠结）所示，我们方法中的人表现出高对比度和鲜明的突出轮廓，有利于视觉观察。其次，我们的结果可以从可见图像（第一组和第三组的绿色缠结）中保留丰富的纹理细节，这更符合人类视觉系统。相比之下，视觉检查表明 DenseFuse 和 FusionGAN 无法很好地突出判别目标，而 GANMcC 和 DDcGAN 未能获得丰富的纹理细节。请注意，我们的 TarDAL 能够生成更视觉友好的融合结果，具有清晰的目标、更清晰的边缘轮廓并保留丰富的纹理细节。

定量比较随后，我们在 400 个图像对（来自 TNO 的 20 个图像对、来自 RoadScene 的 40 个图像对和来自 M3FD 的 340 个图像对）上将我们的 TarDAL 与上述竞争对手进行了定量比较。此外，还引入了三个评估指标，即互信息（MI）[30]、熵（EN）[31]和标准差（SD）[1]进行评估。定量结果如图 7 所示。从统计结果可以看出，我们的方法在所有评估指标中的三个数据集上不断生成最大或第二大的平均值。同时，实现较低的方差表明我们的方法在处理各种视觉场景时更加稳定。具体来说，MI 的最大平均值证明我们的方法从两个源图像中传输了更多的信息。 EN 和 SD 的值表明我们的结果包含丰富的信息以及目标与背景之间的最高对比度。综上所述，我们的方法在一定程度上稳定地保留了有用的信息，尤其是最具辨别力的目标、最丰富的纹理细节以及与源图像相当大的结构相似性。
5.2. Results of infrared-visible object detection
为了彻底讨论 IVIF 如何影响多模态目标检测性能，我们使用了两个数据集，即 Multispectral 和 M3FD。其中，我们使用 YOLOv5 作为目标检测的基线模型。为了公平比较，我们分别保留了七种最先进方法的融合结果的检测模型。定性比较如图 8 所示，请注意，仅使用红外或可见传感器无法很好地检测，例如，红外图像是一辆停止的汽车，而可见光是人。相反，几乎所有的融合方法都通过利用双方的互补信息来提高检测性能。通过在我们的方法中设计目标感知双层对抗学习和合作训练方案集成，我们可以不断生成检测友好的融合结果，该结果在检测人和车辆方面具有优势，例如远处岩石上的被遮蔽的汽车和行人。

定量比较表 2 报告了两个数据集的定量结果。几乎所有的融合方法都取得了有希望的检测结果，其中检测AP大大超过了仅使用可见光或红外图像的情况。请注意，我们的 TarDAL 在两个数据集上的检测 mAP 方面优于其他方法，与第二个数据集（即 DenseFuse 和 GANMcC）相比，它们分别获得了 1.4% 和 1.1% 的改进。值得指出的是，我们的 TarDAL 在处理挑战场景方面具有优势，因为 TarDAL 充分发现了来自不同模态的独特信息。
计算复杂度分析为了全面分析我们方法的计算复杂度，我们提供了所有方法的时间消耗和计算效率。如表 2 的最后一列所示，CNN 的强大计算能力使这些基于学习的方法能够实现高速。请注意，我们的方法在 FLOPs 和训练参数方面同时实现了最高的运行速度和较低的计算复杂度，高效地集成了后续的高级视觉应用。

5.3. Ablation studies
模型架构研究我们研究了我们方法的模型架构，并进一步验证了不同单个组件的有效性。首先，我们从整个网络中移除目标鉴别器 DT。在图 9 中，由于该变体中缺乏区分重要的红外目标，融合结果往往会在一定程度上模糊目标。此外，在表 3 中，请注意 DT 在提高融合后的检测性能方面也起着至关重要的作用。其次，细节鉴别器 DD 在保留可见图像的纹理细节方面有贡献。在没有 DD 的情况下，融合图像的背景细节无法完全恢复，直观的视觉结果如图 9 所示。但是，由于冗余的背景细节，DD 对目标检测的负面影响很小。此外，如果没有将 DT 和 DD 集成到我们的整个网络中，EN 和 SD 可以在 TNO 数据集上实现最高值。这是因为融合结果中的大量噪声可能会导致 EN 和 SD 的显着上升。综上所述，我们的方法依赖于每一步的中间结果，每一步都对最终的融合结果产生积极影响。

分析训练损失函数我们讨论了不同损失函数对我们方法的影响。在图 10 中，很容易注意到我们的方法比没有 SDW 的方法可以保持更多的高对比度显着像素分布，这可以说明新设计的 SDW 函数的有效性。同时，没有 m 的方法可能会丢失一些重要的细节，例如树叶和烟囱的轮廓。这是因为 m 允许两个鉴别器在各自的区域下进行对抗学习，因此更加关注它们的独特特征。

评估不同版本的训练策略我们进一步验证了我们的合作训练（CT）与直接训练（DT）和任务导向训练（TT）相比的优势。如图 11 所示，TT 仅使用检测损失来训练网络，导致观察的视觉效果较差。相比之下，CT在提升检测性能和更好的视觉效果方面具有显着优势。在表 4 中可以发现相同的趋势，CT 在两个不同的数据集中达到最大或第二大的分数。