论文链接:FusionGAN: A generative adversarial network for infrared and visible image fusion - ScienceDirect
FusionGAN: A generative adversarial network for infrared and visible image fusion
1.Introduction
研究背景:
1. 图像融合是一种增强技术,旨在将不同类型传感器获取的图像结合起来,生成一个强大或信息丰富的图像,可以促进后续处理或帮助决策。
2. 多传感器数据(如红外和可见光图像)已被用于提高人类视觉感知、目标检测和识别性能。
现有方法存在的问题:
1. 在红外和可见光图像融合中,现有方法往往使用相同的变换或表示,但这可能不适合于不同现象的体现。
2. 大多数现有方法中的活动水平测量和融合规则设计是以手动方式设计的,限制了实施困难和计算成本。
研究方法:
1. 提出了一种基于生成对抗网络(FusionGAN)的红外和可见光图像融合方法,将融合看作保持红外热辐射信息和保留可见外观纹理信息之间的对抗游戏。
2. 包括生成器和鉴别器,生成器尝试生成一个融合图像,同时保留主要的红外强度和额外的可见梯度,而鉴别器旨在强制使融合图像具有更多的纹理细节。
创新:
1. 通过使用生成对抗网络(GANs)来解决图像融合任务,提出了专门适用于红外和可见光图像融合的损失函数,首次采用GANs来处理该任务。
2. FusionGAN是一个端到端模型,无需手动设计活动水平测量或融合规则,实现自动生成融合图像。
3. 在公共红外和可见光图像融合数据集上进行实验证明,与先进方法相比,FusionGAN能够获得类似清晰的红外图像和丰富纹理的结果。
4.推广了所提出的FusionGAN来融合不同分辨率的源图像,例如低分辨率红外图像和高分辨率可见光图像。它可以生成高分辨率的结果图像,这些图像不会受到红外信息上采样引起的噪声的影响。
2.Related Work
2.1 Infrared and visible image fusion
随着对图像表示方法的需求快速增长,已经提出了大量的图像融合方法。它们可以简单地分为七类,包括多尺度变换-[5]、[6]、[7]、稀疏表示-[8]、[9]、神经网络-[10]、[11]、子空间-[12]、[13]、基于显著性的方法[14]、[15]、混合模型[16]、[17]和其他方法[18]、[19]。
-
多尺度变换方法:这是图像融合中最流行的方法之一,将原始图像分解为不同尺度的分量。三个步骤:分解、融合、逆变换。
-
稀疏表示图像融合方法:学习过完备字典,增强有意义且稳定的图像表示。划分源图像为重叠块,减少视觉伪影。
-
神经网络方法:模仿人脑感知行为,采用脉冲耦合神经网络或其变体。
-
子空间方法:投影高维输入图像到低维空间,捕捉原始图像的内在结构
-
显著性方法:这些方法基于一个事实:注意力通常被比邻近像素更重要的对象或像素所吸引。显著性融合方法可以保持显著对象区域的完整性,并提高融合图像的视觉质量
-
混合模型:上述提到的红外和可见光图像融合方法都有其优点和缺点。混合模型将它们的优点结合起来,以改善图像融合性能。
-
其他方法:还有其他基于总变差、模糊理论、熵等的红外和可见光图像融合方法,这些方法可以为图像融合提供新的思路和视角。
2.2.Deep learning based image fusion
-
深度学习在图像融合中的应用:
-
近年来,深度学习在图像融合领域取得了成功。其强大的特征提取能力使其成为研究热点。
-
在多焦点图像融合中,研究人员使用深度卷积神经网络(CNN)联合生成活动水平测量和融合规则,也应用于红外和可见光图像融合。
-
在多模态图像融合中,基于CNN的联合图像融合和超分辨率方法也取得了良好效果。
-
遥感图像融合方面,有效的三层架构被用于解决全色增强问题。
-
-
现有技术的局限性:
-
现有的深度学习图像融合技术通常依赖于CNN模型,需要提前获得ground truth融合图像作为训练数据。
-
然而,在红外和可见光图像融合任务中,定义融合图像的标准是不现实的,因此不考虑建立ground truth融合图像。
-
针对这一问题,本文提出了一种基于GAN框架的新方法,不受ground truth融合图像的限制。
-
3.Method
3.1.Problem formulation
FusionGAN提出的融合策略旨在将红外图像(Ir)的热辐射信息与可见图像(Iv)的丰富纹理信息相结合。具体步骤如下:
-
拼接:首先,将红外图像(Ir)和可见图像(Iv)在通道维度上进行拼接。然后,将这个合并后的图像输入到一个生成器(G)中,生成融合图像(If)。
-
损失函数:生成器采用特定的损失函数设计。因此,融合图像If倾向于保留来自Ir的热辐射信息,同时保留来自Iv的梯度细节。
-
对抗性博弈:所提出的FusionGAN在生成器(G)和判别器(D)之间建立了一个对抗性博弈。判别器的目标是区分If和Iv。在训练过程中,If逐渐融合了来自可见图像Iv的更多细节信息。
-
测试过程:在测试阶段,将融合图像If和可见图像Iv的拼接图像输入到经过训练的生成器(G)中,G的输出即为最终的融合结果。
Loss Function
3.2.Network architecture
生成器的网络架构:
-
生成器是一个五层卷积神经网络,具有不同的滤波器大小和步幅。
-
生成器的输入是一个无噪声的连接图像,输出与输入的大小相同。
-
为了避免在源图像中丢失详细信息,生成器不使用任何下采样或转置卷积层。
-
生成器在前四层中使用批归一化和Leaky ReLU激活函数,在最后一层中使用tanh激活函数,以改善生成图像的稳定性和多样性。
鉴别器的网络架构:
-
卷积层:鉴别器有五个卷积层,每个卷积层都使用3 × 3的滤波器和步幅2。第一层有填充,而其余层没有。这减小了特征图的大小,类似于池化层的作用。
-
批归一化:鉴别器从第二层到第四层使用批归一化层。这有助于稳定训练并减少GAN中的模式崩溃问题。
-
Leaky ReLU:鉴别器在前四层使用Leaky ReLU激活函数。这允许在单元不活跃时流动较小的梯度,并防止ReLU死亡问题。
-
线性层:鉴别器最后有一个线性层,输出一个标量值,表示输入图像为真实或伪造的概率。
5.Discussion
1. 深度学习技术的可解释性问题:深度学习技术通常被视为黑盒模型,即使我们了解其数学原理,也缺乏明确的声明性知识表达,因此难以生成解释性结构。
2. 传统GAN的本质:传统GAN的核心是训练生成器捕捉数据分布,使生成数据与原始数据具有相同分布。通过鉴别器衡量数据分布的相似性,当鉴别器无法区分生成数据和原始数据时,认为生成数据与原始数据具有相同分布。
3. FusionGAN的关键特点:FusionGAN的本质是生成保留源图像信息的融合图像,通过参数λ和ξ控制信息保留程度。内容损失用于保留红外图像中的辐射信息和可见光图像中的梯度信息,对抗损失用于保留可见光图像中的细节信息,如图像对比度、饱和度和光照变化。在对抗过程中,生成器不断调整融合图像中细节信息的分布,同时保留红外辐射信息。当鉴别器无法区分融合图像和可见光图像时,认为融合图像的细节信息分布与可见光图像相同,因此融合图像具有更多的纹理细节。
6.Conclusion
1. 本论文提出了一种基于生成对抗网络的新型红外和可见光图像融合方法FusionGAN,能够同时保留红外图像中的热辐射信息和可见光图像中的纹理细节信息。
2. FusionGAN是一个端到端模型,可以避免手动设计复杂的融合规则。实验结果表明,FusionGAN生成的融合图像看起来像锐化的红外图像,具有清晰的目标和丰富的细节信息,有益于基于图像融合的目标检测和识别系统。
3. FusionGAN在视觉效果和信息保留方面优于现有方法。它是一个通用的框架,用于融合不同分辨率的源图像中的像素强度和纹理细节。未来工作将进一步将FusionGAN应用于解决遥感领域中的著名的全色增强问题,即将低分辨率的多光谱图像与高分辨率的全色图像融合,生成具有高空间分辨率的多光谱图像。