1.摘要
红外和可见光图像融合的好结果不仅应该保持显著的对比度来区分目标和背景,还应该含有丰富的场景纹理以迎合人类视觉感知。然而,以往的融合方法通常没有充分利用信息,从而牺牲了红外热目标的显著性或纹理的清晰度。为了解决这个挑战,我们提出了一种新颖的全尺度跳跃连接和双Markovian鉴别器的生成对抗网络(GAN-FM),以完全保留红外和可见光图像中的有效信息。首先,设计了一个全尺度跳跃连接的生成器来提取和融合不同尺度的深层特征,这可以促进浅层高对比度特征直接传输到深层次,从语义层面上保留红外热辐射目标。因此,融合图像可以保持显著的对比度。其次,我们提出了两个Markovian判别器与生成器建立对抗性游戏,以同时估计红外和可见光模态的概率分布。与传统的全局判别器不同,Markovian判别器试图区分每个输入图像的块,因此网络的关注点被限制在局部区域,融合结果被强制包含更多的细节。此外,我们还提出了一种有效的联合梯度损失,以确保对比度和纹理的和谐共存,防止高对比度目标区域边缘扩散所导致的背景纹理污染。广泛的定性和量化实验表明,我们的GAN-FM在保留显著对比度和丰富纹理方面优于最先进的方法。此外,我们还将我们方法生成的融合图像应用于目标检测和图像分割,这可以有效提高性能。
2.引言
传统的融合方法包括多尺度变换方法、稀疏表示方法、显著性方法、混合方法、和其他方法。不幸的是,传统方法通常由于两个原因而具有有限的融合性能。首先,通过采用固定的数学变换所提取的特征的表达能力较弱,没有充分考虑源图像之间的模态差异。其次,传统的融合策略过于粗略,无法有效地保留有用的信息。
虽然当前的基于深度学习的方法在大多数情况下效果很好,但仍存在一些缺点。一方面,这些方法的网络不包含下采样算子,不能充分利用全尺度的信息。因此,得到的融合结果更像是在原始尺度上达成妥协,其中高对比度不能从语义层面上得到保留。另一方面,现有的基于GAN的方法通常将全局判别器应用于整张图片来建立对抗性游戏,这很容易导致融合结果的整体平滑
为了解决上述挑战,我们提出了一种新的GAN-FM,其中包含全尺度跳跃连接和双Markovian鉴别器。我们的模型由一个生成器和两个鉴别器组成。首先,生成器专门用于融合红外和可见光图像,以生成融合结果。为了充分利用融合过程中的多级和多尺度信息,生成器被设计为基于U形的全尺度连接架构。多级信息有助于有效将浅层对比度特征传输到深层,而多尺度信息促进了从语义层面上保留高对比度目标。其次,鉴别器专门用于区分融合图像和源图像。为了加强对细粒度纹理的关注,我们采用Markovian鉴别器区分融合图像和源图像。与传统的全局鉴别器不同,Markovian鉴别器试图将每个图像块分类为真实或伪造,并平均所有响应以获取最终决策。
为了展示所提出的GAN-FM的优势,图2提供了一个典型的例子,选取了代表性的基于CNN的方法PMGI 、基于AE的方法DenseFuse 和基于GAN的方法FusionGAN进行比较。显然,PMGI、DenseFuse和FusionGAN都降低了热辐射目标的对比度并丢失了一些纹理细节。在PMGI和FusionGAN的结果中,由于边缘扩散,导致热目标区域模糊不清。相比之下,我们的GAN-FM可以最好地保持高对比度目标、保留最丰富的背景纹理,并避免热目标区域的边缘扩散。
本文的主要贡献总结如下:
- 我们设计了一个全尺度跳跃连接的生成器,可以充分利用融合过程中的多级和多尺度信息,从而促进在融合过程中保留热辐射目标的高对比度。
- 提出了一种使用Markovian鉴别器的双对抗机制,用于在融合图像和源图像之间进行差异判别,从而增强对高频信息的关注,从而保留更多的纹理细节。
- 我们开发了一种联合梯度损失,以确保高对比度区域和纹理细节的和谐共存,可以有效地防止由高对比度目标区域的边缘扩散导致的背景纹理污染。
- 提出的GAN-FM应用于目标检测和图像分割任务中,有效提高了性能。
3.方法
A. Overall Framework
GAN-FM的总体框架如图3所示,包括一个生成器和两个判别器。给定一对配准的红外图像 I i r I_{ir} Iir 和可见图像$ I_{vi}$,生成器旨在从两个源图像中提取和组合有意义的信息,从而生成一个真实的融合图像 I f I_f If,以欺骗判别器。与此相反,两个判别器 $D_{vi} $和 D i r D_{ir} Dir 试图准确区分融合图像和源图像。通过生成器和判别器之间的对抗游戏,强制融合图像包含源图像中独特和关键的特征,例如$ I_{ir}$ 中的热信息和 I v i I_{vi} Ivi 中的场景纹理。为了进一步加强这两种信息的保留,我们专门设计了生成器和判别器。
首先,我们采用全尺度连接的思想设计了一个基于U形的生成器,它可以提取和利用多尺度和分层特征。一方面,跳跃连接可以直接将浅层高对比度的特征传输到深层,避免抽象特征导致的热辐射强度丢失。另一方面,多尺度网络促进了从语义层面保留显著特征。因此,具有多尺度结构和跳跃连接的生成器可以很好地保留源图像的显著特征,尤其是红外图像中的热辐射目标。
其次,本文提出的框架中使用了两个马尔可夫判别器(即 D v i 和 D i r D_{vi}和D_{ir} Dvi和Dir),而不是现有方法中采用的常规全局判别器。与全局判别器不同,马尔可夫判别器尝试对输入图像的每个小块进行真假分类,从而增强判别器对局部结构的关注。因此,采用马尔可夫判别器的对抗学习将迫使更多的高频纹理信息在融合结果中得以保留。全尺度连接的生成器和马尔可夫判别器的组合使得融合图像能够同时保留丰富的背景纹理和高对比度目标。但是,如何确保背景纹理和高对比度区域的和谐共存仍是一个挑战。
在许多当前方法的结果中,高对比度区域的边缘扩散会导致背景纹理的污染。为了解决这个问题,我们提出了一个联合梯度损失函数来加强显著区域的边缘。具体来说,我们基于最大选择原则从源图像的梯度图构造一个强的联合梯度图。在联合梯度损失的指导下,融合图像的梯度接近于每个空间像素位置处的联合梯度,从而增强了优化过程中纹理边缘的保留。因此,高对比度区域的边缘受到了限制,同时不会因扩散而污染背景纹理。
B. Network Architecture
生成器结构:我们设计了一个基于编码-解码框架的新生成器来融合红外和可见图像,其结构如图4所示,在ENB和DEB之间利用全尺度跳跃连接来加强显著特征的提取和保留。在图4中,“ENB”表示编码器块,它包含两个卷积层。“DEB”表示解码器块,它包含一个卷积层。向下的红色箭头表示最大池化运算符,所有连接编码器块和解码器块之间的虚线表示全尺度跳跃连接。跳跃连接的具体操作包括三种,分别是大尺度(向下虚线)、相同尺度(水平虚线)和小尺度(向上虚线)。
图5展示了如何使用全尺度跳跃连接构建“DEB1”。具体而言,在更大尺度的特征图中,我们使用一个最大池化层和一个卷积层;在相同尺度的特征图中,我们直接使用一个卷积层;在小尺度的特征图中,我们使用一个双线性上采样层和一个卷积层。在整个过程中,红外图像$I_{ir} 和可见图像 和可见图像 和可见图像 I_{vi} $在通道维度上连接为输入,送入编码器网络提取多尺度深度特征。然后,全尺度跳跃连接将特征图处理为相同的通道数(在我们的GAN-FM中为32),将它们连接到下一个解码器。最后,融合图像 I f I_f If由解码器网络生成。
鉴别器结构:在所提出的方法中, D v i 和 D i r D_{vi} 和D_{ir} Dvi和Dir是两个独立的马尔可夫判别器,具有相同的结构。鉴别器的结构如图6所示,由五个卷积层组成。前四层采用ReLU激活函数,而最后一层使用tanh激活函数。值得注意的是,在前四个卷积层中使用批归一化。鉴别器的输出是一个矩阵,每个神经元可以代表输入图像中的一个局部块,即感受野。在我们的模型中,感受野的大小为63×63像素。最终确定的概率是通过平均所有块的概率得到的。这种形式可以迫使生成器在对抗学习过程中更加关注纹理细节的保留。
C. Loss Function
我们的模型由一个生成器、一个红外判别器和一个可见判别器组成。因此,损失函数也可以分为三个部分,即生成器的损失函数$ L_G$ ,红外判别器的损失函数 L D i r L_{D_{ir}} LDir 和可见判别器的损失函数 L D v i L_{D_{vi}} LDvi。
1)生成器的损失函数:GAN训练过程中的不稳定性已经被广泛认知。因此,我们提出了一个内容损失函数 L c o n L_{con} Lcon,对生成器进行额外的限制。因此,生成器的损失函数由对抗损失$ L_{adv}$ 和内容损失 L c o n L_{con} Lcon 组成,定义为:
L G = L a d v + λ L c o n , ( 1 ) L_G = L_{adv} + λL_{con}, \quad (1) LG=Lad