Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection(2022CVPR Oral)
现有方法存在的问题:
1.传统和深度IVIF方法注重提高质量,却忽略了后续的检测工作;
2.融合方法偏重于寻求共同点,而忽略了两种模态在呈现信息方面的差异;
3.数据收集有限,难以学习到两种模态的互补信息并验证有效性。
贡献:
1.提出了一个双层优化形式,同时处理图像融合和目标检测,以提高检测准确性和视觉效果;
2.设计了一种目标感知的双重对抗学习网络(TarDAL),用于面向检测的图像融合,通过学习差异和共同点来保留目标信息和纹理细节;
3.提出了协作训练方案,从双层优化形式中导出,用于优化网络参数以实现快速推理;
4.收集了一个多场景多模态数据集(M3FD),包括大量对齐的红外和可见光图像对以及标记的对象,覆盖了各种环境和条件,为研究提供了丰富的数据资源。

Benchmarks

研究方法
Problem formulation
双层优化:

这种双层公式使得找到同时有利于融合和检测的解决方案成为可能。
单层优化:解决方程(2)并不简单;融合任务不是简单的等式/不等式约束;引入融合网络。

Target-aware dual adversarial network

(Liu 等, 2022, p. 5804)
生成器:生成器的作用是生成一个融合图像,该图像既保留了源图像的整体结构,同时保持了与源图像类似的强度分布。

损失函数设计:
1.结构相似性损失:

公式 (4) 中的 LSSIM 表示结构相似性损失,旨在衡量生成的融合图像与源图像之间的结构相似性。
2.像素损失:

为了平衡源图像的像素强度分布,引入了基于显著性程度权重(SDW)的像素损失。通过计算像素的显著性值来计算权重 ω1 和 ω2,公式 (5) 中的 Lpixel 表示像素损失,其中包括了融合图像与源图像的像素间的绝对差值。
ω1 和 ω2 是用于计算每个源图像对融合图像贡献的权重,通过调整这两个权重,可以更好地平衡生成的融合图像与源图像之间的像素强度分布。
这种设计考虑了融合图像的整体结构和像素级细节,有助于提高融合图像的质量和保真度。
判别器:
目标鉴别器DT用于区分融合结果与红外光的前景热目标,而细节鉴别器DD有助于区分融合结果与可见光的背景细节。

采用预训练的显着性检测网络 [3] 从红外图像计算目标掩模 m,以便两个鉴别器可以在各自的区域(目标和背景)上执行。
对抗性损失定义为:

这些判别器的对抗性损失函数计算 Wasserstein 散度,以相互识别前景热目标和背景纹理细节是否真实,定义为:

总损失函数:

合作训练策略


最后,该策略不仅可以生成视觉上吸引人的图像,而且可以在给定训练的网络参数的情况下输出准确的检测,使我们能够找到面向检测的融合的最佳解决方案,并且比独立训练方案更有效地收敛。
Multi-scenario Multi-modality Benchmark
构建了一个同步系统,包含一个双目光学相机和一个双目红外传感器(如图5所示),以捕获自然场景的对应双模态图像。

将M3FD中的4200对对齐图像分为四种典型类型,即白天、多云、夜晚、挑战,并细分为十个子场景。
同时,标注了33603个六类别对象,包括人、汽车、公共汽车、摩托车、卡车和路灯对象,这些类别常见于监控和自动驾驶领域。

实验结果
融合:

检测:

消融实验:





2057

被折叠的 条评论
为什么被折叠?



