UNFusion: A Unified Multi-Scale Densely Connected Network for Infrared and Visible Image Fusion

UNFusion:用于红外和可见光图像融合的统一多尺度密集连接网络

源代码UNFusion.
IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY , VOL. 32, NO. 6, JUNE 2022 二区

摘要:

红外图像保留了典型的热目标,而可见光图像保留了丰富的纹理细节,图像融合的目的是重建一个包含突出目标和丰富纹理细节的合成图像。大多数基于深度学习的方法主要集中于卷积运算来提取局部特征,而没有充分考虑它们的多尺度特征和全局依赖关系,这可能会导致融合图像中目标区域和纹理细节的丢失。为此,本文提出了一种统一的多尺度密集连接融合网络,称为UNFusion。我们精心设计了一种多尺度编码器-解码器架构,可以有效地提取和重建多尺度深度特征。在编码器和解码器子网络中都采用了密集的跳跃连接,以重用不同层和尺度的所有中间特征来完成融合任务。在融合层,提出了包含三种不同范数的L p归一化注意模型,从空间和通道维度突出和组合这些深层特征,并使用组合的空间和通道注意图重建最终的融合图像。我们在公共TNO和道路场景数据集上进行了大量的实验,结果表明,我们的UNFusion可以同时保持典型热目标的高亮度和丰富的纹理细节,从而获得更好的场景表现和视觉感受。此外,我们的UNFusion实现了更好的融合性能,在定性和定量比较方面超越了其他最先进的方法。我们的代码可在https://github.com/Zhishe-Wang/UNFusion上获得。

索引术语-图像融合,密集跳跃连接,标准化关注模型,统一网络,红外图像,可见图像。

1、介绍

image融合的目的是将不同传感器获得的两幅或两幅以上的图像结合成一幅合成图像,有利于人类的视觉观察和进一步的计算机处理。红外图像与可见光图像的融合是图像融合任务的典型代表。红外成像可以捕获突出的目标区域,可以在白天或夜间工作,但获得的图像通常缺乏结构特征和纹理细节。相反,可见光成像可以获取丰富的场景信息和纹理细节,但无法捕获热目标信息,且容易受到光照条件变化和天气变化的影响。由于红外和可见光成像机制的不同,这两种图像具有丰富的互补信息,融合后的图像具有更好的场景表现性和视觉感知能力。因此,图像融合是发展红外与可见光成像传感器协同检测能力的关键技术[1],广泛应用于多光谱行人检测[2]、行人分割[3]、目标融合跟踪[4]等领域。

在过去的几年里,人们采用了各种方法来解决红外和可见光图像的融合问题。在传统方法中,基于多尺度变换的方法通常利用图像变换模型提取特征,并设计一定的规则将这些特征组合起来。典型的金字塔变换[5]、小波变换[6]、曲线变换[7]和非下采样轮廓变换[8]是图像融合的常用工具。

基于稀疏表示的方法[9]、[10]采用字典学习建立稀疏模型,利用稀疏系数重建融合后的图像。

从训练数据中学习的字典有可能提高图像特征表示能力。混合方法通常结合不同方法的优点,克服单一方法的局限性,获得较好的结果。如多尺度嵌入变换方法[11]-[13],多尺度变换与稀疏表示方法相结合[14]。基于显著性的方法[15]采用显著性区域提取增强图像特征或权重计算指导特征组合。基于子空间的方法[16]一般是将高维图像投影到低维子空间中,以提取图像的内在结构特征。此外,其他方法[17]、[18]也为红外与可见光图像融合任务提供了新的理论模型或好的思路。

然而,这些方法往往忽略了源图像的差异,不加区分地提取相似的显著特征,对融合图像产生负面影响。
此外,手工变换参数和高计算强度一直是限制其应用的难点

近年来,由于卷积运算在特征提取方面的强大能力,大多数基于深度学习的方法被用于图像融合任务[19]。这些方法能够从海量的训练数据中自动提取深度特征,克服了上述传统方法存在的问题。例如,Li等人提出了用于红外和可见光图像融合的DenseFuse[20]和NestFuse[21]。他们的方法侧重于设计编码器和解码器网络,分别提高特征提取和重构的能力。
Jiang等人[22]引入了一种对称编码器-解码器网络,该网络补偿显著特征以提高融合性能。与上述方法不同,Ma等提出了fusongan[23],将图像融合作为生成式对抗网络中的对抗博弈,然后采用多分类约束生成式对抗网络(GANMcC)[24]将图像融合任务转化为多分布估计问题。

此外,对于多任务图像融合,Zhang等[25]采用通用图像融合框架(IFCNN)来融合各种类型的图像。Xu等[26]也提出了U2Fusion,通过统一无监督网络来解决不同的融合任务。这些基于卷积神经网络或生成对抗网络的方法都取得了显著的效果。即便如此,它们中的大多数仍然有一些缺点。首先,这些方法依赖于最后一层的特征,而忽略了中间层的特征相关性,其固有的困境是阻碍了图像融合任务的表征能力。其次,这些方法不能有效地提取多尺度深度特征,而细尺度和粗尺度特征对于表示不同目标的空间信息很重要,这可能会导致融合图像中的细节缺失和光晕伪影。第三,这些方法侧重于局部特征的提取,没有考虑其全局依赖性,局部深度特征没有得到细化和增强,可能导致融合图像中目标区域亮度降低和纹理细节模糊。

为了解决上述问题,本文提出了一种统一的多尺度密集连接网络,称为UNFusion。第一个问题是忽略中间层的特征相关性,通过密集连接解决

在编码器和解码器子网络中设计了密集的跳变连接。通过连接中间层,可以很好地控制所有特征,提高特征表示和重建能力。其次,通过设计多尺度网络结构来解决网络缺乏精细和粗尺度特征的问题。我们的编码器和解码器子网络可以在水平和垂直方向上逐渐聚合多尺度深度特征。多尺度深层地物在水平方向上可以在同一分辨率下组合,在垂直方向上可以跨不同分辨率进行整合。第三个问题不考虑全局依赖性,采用基于注意力的融合策略解决。采用p归一化注意模型从空间维度和通道维度建立局部特征的全局依赖关系。得到的注意图可以突出源图像的重要特征,忽略无关的特征

为了证明所提方法的优越性,示意图如图1所示。这些图像分别是红外图像、可见光图像、DenseFuse[20]、fusongan[23]和UNFusion (L1)的融合结果。左侧红外图像保留了典型的高亮度目标区域,右侧可见光图像保留了丰富的纹理细节。DenseFuse可以保留更多的纹理细节,而典型的目标区域,如直升机引擎,对比度低,不突出。然而,对于典型的目标区域,fusongan可以获得很好的结果,但纹理细节,如直升机起落架,丢失和不锐利。相比之下,我们的UNFusion可以同时保留直升机发动机的高亮度和起落架的清晰纹理细节。此外,与其他方法相比,我们的结果达到了更高的对比度和更好的视觉效果
在这里插入图片描述
在这项工作中,我们的主要贡献包括四个方面:
(1)在编码器和解码器子网络中都引入了密集跳跃连接。通过使用密集连通性,可以很好地重用所有不同层和尺度的中间特征映射,提高特征表示和重建能力。

(2)提出了一种统一的多尺度密集连接网络,用于红外和可见光图像融合。我们的网络可以在整个网络中逐步聚合多尺度特征,这对提高融合性能具有重要意义。

(3)采用L p归一化注意模型作为融合策略,突出多尺度深层特征,从空间维度和通道维度生成加权注意图。

我们的结果可以同时保留典型的目标区域和丰富的纹理细节,更适合人眼观察和其他视觉任务。

(4)对不同天气条件下不同场景的公共TNO和Roadscene数据集进行了大量烧蚀和对比实验。我们的方法取得了非凡的效果,在定性和定量比较方面超越了其他最先进的融合方法。

本文的其余部分组织如下。第二节介绍了密集跳跃连接的相关工作和基于深度学习方法的背景资料。

第三节详细讨论了我们提议的UNFusion。

通过烧蚀分析和对比实验介绍了我们的UNFusion的有效性和优越性。最后,第五节是本文的结论

2、相关工作

在本节中,我们首先介绍密集跳跃连接在深度学习中的发展和应用,然后讨论基于深度学习的融合方法的相关工作。

A.密集跳跃连接

最近,跳跃连接成功地解决了网络训练中的梯度爆炸和梯度消失问题。公路网[27]采用带门控单元的跳变连接,可以毫无困难地训练一百多层的网络。ResNets[28],其身份映射可以看作是跳过连接,并取得了令人满意的结果。随机深度[29]通过随机丢层来优化训练速度和网络性能。此外,为了增加网络宽度,还采用了跳接。GoogLeNet[30]提出了inception模块,将不同过滤器得到的feature map进行连接,提高网络的深度和宽度。FractalNets[31]通过使用不同深度和许多跳跃连接,采用了广泛的网络结构。DenseNets[32]采用了包含密集跳跃连接的精简模型来重用中间特征,提高效率。MSDNet[33]将密集跳跃连接扩展到多尺度网络中,以实现资源高效的图像分类。

此外,在生物医学图像分割的编码器-解码器网络中还采用了跳跃连接,将特征提取与重构相连接。例如,UNet[34]提出了跳跃式连接,分别从相应的编码器和解码器子网络中结合低级细节和高级语义特征,提高了特征提取能力,加快了收敛速度。

为了减少语义差距,unet++[35]引入了嵌套和密集的跳跃连接来聚合特征,并取得了良好的特征重建性能。他们的成功很大程度上归功于采用了跳过连接,这种方法可以保留更多的信息,获得更好的结果。此外,跳跃式连接还用于其他计算机视觉任务,如图像超分辨率[36]、烟雾检测[37]等。

本文在编码器和解码器子网络中同时引入密集跳跃连接,重新设计了一种统一的多尺度密集连接网络,用于红外和可见光图像融合。在我们的融合框架中,所有不同层次的中间特征都可以被重用,所有不同尺度的特征都可以在水平和垂直方向上聚合。利用这些密集的跳跃连接增强特征表示和重构能力,进一步提高融合性能

B.基于深度学习的图像融合

传统的融合方法通常采用统一的特征变换或表示来提取图像特征,手工提取的特征参数可能无法同时适用于红外和可见光图像。这是因为这两幅图像具有不同的成像机制,从而导致辐射和反射特性之间的现象不同。与传统方法相比,深度学习模型可以使用更多的滤波器组来提取特征,并通过自适应网络学习自动获得特征参数。基于深度学习的方法是一个最有前途和吸引力的方向,并且已经取得了令人满意的结果。对于监督训练,Liu等[38]首先提出了一种基于cnn的多焦点融合方法,通过测量活动水平来指导后处理步骤的特征组合,并对红外和可见光图像采用了不同融合规则的模型[39]。Li等[40]提出了一种预训练的ResNet50来提取深度特征,然后将这些特征通过零相位分量分析和l1范数相结合来生成权重图。Zhao等[41]引入卷积神经网络来代替图像分解的优化步骤。这些方法主要提出卷积神经网络生成决策图,然后利用这些学习决策图进行适当的后处理,得到融合后的图像。然而,后期处理的设计是非常棘手的。

与上面描述的监督训练不同,无监督学习方法通常利用可用的数据集来训练红外和可见光图像融合的网络。Li和Wu[20]提出了DenseFuse,该方法在编码器网络中使用两个密集块来改进特征表示。

  • Jiang等人[22]提出了一种对称的编码器-解码器网络,该网络利用中间特征和补偿特征重构融合后的图像。这些方法在编解码器框架下具有良好的重构性能,便于设计融合规则。然而,如何设计合适的融合策略一直是难点。

与上述方法不同的是,

  • Li等[42]提出的RFN-Nest是一种端到端融合网络,采用两阶段训练策略开发

Ma等[23]提出了一种生成式对抗网络,将图像融合任务引入到对抗博弈中,然后通过两个判别器对其进行扩展,实现多分辨率图像融合[43]。

随后,他们又采用GANMcC[24],将图像融合任务转化为多分布估计问题。Yang等[44]提出了纹理条件生成对抗网络来保留重要的纹理信息。这些方法克服了手工融合策略的缺点,同时也面临着充分保留图像细节的挑战。Xu等[26]采用统一的无监督方法(U2Fusion)对同一网络中不同的融合任务进行特征提取和信息测量。Zhang等[45]提出PMGI,将图像融合任务转化为保持源图像的纹理和强度问题,实现多种图像融合任务。

上述方法将卷积神经网络引入到特征提取中,无论是作为部分子部分还是作为整个部分,都没有充分考虑局部深度特征的多尺度特征和全局依赖性。

  • Raza等[46]提出了一种多尺度密集块来保留源图像的内容和关键目标特征。
  • Zhu等[47]提出了多尺度通道注意块来提取不同尺度的特征。
  • Liu等[48]利用一种从粗到精的深度架构提取多尺度特征,并设计了对这些特征的边缘引导关注来指导融合过程。

这些方法采用不同的核大小或扩展速率来变换多尺度特征。然而,我们的UNFusion与上述架构不同,所提出的网络的主要修改在于三个方面。首先,我们的编码器和解码器子网络可以以多尺度的方式提取和重建特征。不同的尺度特征可以很好地表示不同物体的重要空间信息。其次,在编码器和解码器子网络中采用密集的跳跃连接,所有中间特征都被重用,以提高特征表示和重构能力;

第三,我们的编码器-解码器网络是一个统一的框架,可以从水平和垂直两个方向逐渐聚集整个网络的特征。

3、方法

在本节中,将重点描述所提出方法的网络结构和融合策略。

A.网络架构

我们提出的四个尺度UNFusion的网络架构如图2所示。该网络包括编码器子网、融合层和解码器子网三部分。水平方向表示网络的深度,垂直方向表示深度特征的尺度。可以发现,我们的网络在一定程度上没有加深网络的情况下提取了多尺度的深度特征。此外,在编码和解码过程中,通过密集的跳跃连接,重用层和尺度的所有中间特征进行融合。

编码器子网包含4个正常卷积层和6个编码器卷积块(ECB)。正常卷积层为3 ×3核大小。ECB包括1 ×1和3 × 3卷积层。向下的箭头表示下样本操作。在我们的网络中,提出了平均池、最大池和跨步卷积三种下采样操作。解码器子网包括一个正常卷积层和六个解码器卷积块(DCB)。DCB由两个3 × 3卷积层组成。向上的箭头表示上样本操作,如最接近和双线性插值。在烧蚀研究IV-C中,将讨论不同的下样和上样操作对熔合性能的影响。所有的卷积层都伴随着ReLU激活函数。拟议网络的详细设置见表1。
特别是在测试过程中,利用训练好的模型将红外和可见光图像分别送入编码器子网络,得到一系列多尺度深度特征。随后,采用基于归一化注意模型的融合策略对这些特征图进行突出和组合,得到空间和通道的注意图。最后,通过译码子网络对融合后的多尺度注意图进行重构。

融合策略的设计将在下一节中描述。
看源码注释了通道宽度等信息
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

B.融合策略

由于注意机制可以增强重要信息,抑制无关信息,因此在机器视觉中发挥着重要作用,如图像字幕[49]、视觉问答[50]等。在这项工作中,我们开发了一种基于L - p归一化注意模型的融合策略,该模型包含三种归一化方式,以突出和结合空间和通道维度的深度特征。基于归一化注意机制的融合过程如图3所示。对于红外和可见光图像的多尺度深度特征I和V,分别采用空间和通道归一化注意模型生成相应的注意图sa F和ca F,然后采用加权平均融合规则得到最终的融合注意图,计算公式为Eq.1
在这里插入图片描述

1)空间归一化注意模型:

对于红外和可见光图像的多尺度深度特征I∈RM×N×C和V∈RM×N×C,分别通过计算像素向量沿通道维数方向的L p范数得到它们的初始注意图,定义为公式2和3。
其中,Ssa I (I, j)和Ssa V (I, j)分别表示C维通道对应像素位置(I, j)的初始空间注意图。·p为L p范数。
然后,在红外图像和可见光图像初始空间注意图的基础上,通过softmax函数进行运算,得到红外图像和可见光图像的加权图,可由式4和式5表示。
其中,βsa I (I, j)和βsa V (I, j)分别表示保留C维向量的加权映射。最后,组合空间注意图saF (i, j)可由式6计算得到。在这里插入图片描述

2)通道标准化注意模型:

其中,对于多尺度深度特征I∈RM×N×C和V∈RM×N×C,我们首先计算特征映射在每个通道上的L p范数,分别得到初始通道关注向量,定义为公式7和8。
在这里插入图片描述

其中,Sca I ©和Sca V ©分别表示红外和可见光图像的初始通道关注向量。c = 1,2,···,c表示通道索引。然后,它们的加权图βcaI ©和βcaV ©可由式9和10计算
在这里插入图片描述
最后,由公式11生成组合频道注意图。
在这里插入图片描述

请注意,我们的空间和通道注意力图分别由相应像素向量和特征图的L p范数计算。本文选择了三种不同的归一化方式:L1范数、L2范数和L∞范数。

4、实验与讨论

在本节中,我们首先概述了训练和测试的细节,然后分析了一些影响融合性能的烧蚀实验。最后,进行了定性和定量对比实验,并进行了讨论。

A.训练细节

本文采用Microsoft COCO[51]数据集,该数据集包含80000多个不同的场景可见图像,用于训练我们的网络。该数据集是从复杂的日常场景中裁剪出来的,可以显著提高网络模型的细节学习能力。在训练过程中,只保留编码器和解码器子网络,去除融合层。将所有训练图像转换为灰度[0,255],并调整大小为256 × 256像素。

对于图像融合任务,由于不存在真实图像,损失函数的选择是监督整个网络的关键。如文献[52]所示,我们采用多尺度结构相似指数测度**(MS_SSIM)和L1损失作为总损失函数**。MS_SSIM以多尺度的方式利用光线、对比度和结构的相似性来表示信息失真,可以保留边缘和细节等高频信息,但容易造成亮度变化和颜色偏差。L1损失函数可以保持亮度和颜色不变,弥补了MS_SSIM损失函数的不足。

MS-SSIM损失函数可表示为式12。
在这里插入图片描述
MS_SSIM为多尺度结构相似性运算,0和I分别表示输出和输入图像。L1损失函数可由式13计算。
β是控制权衡的超参数。
在我们的训练实验中,batch size和epoch分别设置为4和2,学习率设置为0.001,β设置为0.87。所有的训练和测试实验都是在使用Intel i9-9900、GeForce GTX 2080Ti和32gb内存的台式机上进行的。

B.测试细节

在我们的实验中,我们应用了TNO和道路场景数据集来证明我们的方法的有效性和优势。TNO数据集[53]包含不同多光谱相机系统在不同天气条件下获取的不同军事相关场景。

Roadscene数据集[54]选自FLIR视频,其中包含丰富的场景,如道路、行人、车辆等。此外,我们还采用了视觉显著性图和加权最小二乘优化(WLS)[15]、DenseFuse[20]、NestFuse[21]、SEDRFuse[22]、fusongan[23]、GANMcC[24]、PMGI[45]、U2Fusion[26]、IFCNN[25]和RFN-Nest[42]等10种最先进的融合方法与我们的方法进行对比。所有这些比较方法都是用他们公开的代码执行的,参数设置与他们的原始论文一致

此外,由于不同类型的指标表现出不同的融合性能[55],[56],我们选择了十个质量指标,如熵(EN)[57],非线性相关信息熵(NCIE)[58],互信息(MI)[59],特征互信息(FMI)[60],标准差(SD)[61],空间频率(SF)[62],相位一致性(PC) [63], Qabf[64],图像结构相似性(SSIM)[65]和视觉信息保准度(VIF)[66]。综合评价我们的方法的性能。EN和NCIE分别从线性和非线性相关的角度表示融合图像中包含的信息量。MI和FMI分别利用图像直方图和图像特征计算融合图像和源图像的信息保留量。SD是基于统计概念定义的,用于测量图像对比度。SF测量融合图像的梯度分布。PC提供融合图像和源图像之间的绝对特征测量。Qabf根据边缘强度和方向保持来评估边缘信息。SSIM表示结构信息测量。VIF对融合图像的视觉信息保真度进行量化。质量指标值越高,融合性能越好。在定量对比实验中,最佳值和次值分别以粗体和下划线表示。

C.消融研究

在我们的消融研究中,使用了来自TNO数据集的25对红外和可见光图像,10个质量指标以及我们的UNFusion与L1标准化注意模型进行验证。接下来,我们将通过定性和定量的比较来详细讨论这些消融研究。

1)不同下采样和上采样操作的分析:

在我们的编码器和解码器子网络中,采用不同的下采样和上采样操作来提取和重建多尺度深度特征。我们尝试了三种下采样操作,如平均池(称为AvgPool),最大池(称为MaxPool),跨步卷积(称为Stride),以及两种上采样操作,如最近插值(称为nearest),双线性插值(称为bilinear)。在这些烧蚀实验中,我们通过六种组合验证了这些下采样和上采样操作对融合性能的影响。对于定性的比较,我们看不到这些操作的结果有明显的差异。

因此,在本节中我们只采用定量比较的方法进行验证。表2显示了对TNO数据集进行验证比较的结果。我们可以发现,strideinear是结合了跨行卷积的下采样操作和双线性插值的上采样操作的组合,它在NCIE、MI、PC、Qabf和VIF上获得了最高的平均值,在EN、SD和SF上获得了次优值。总的来说,Stride-Bilinear的融合性能要优于其他手术。因此,我们在融合网络中采用跨行卷积作为下样运算,双线性插值作为上样运算
在这里插入图片描述

2)密集跳跃连接的有效性:

为了验证编码器和解码器子网络中密集跳跃连接的有效性,对比了三种验证融合模型。这三种模型分别去除编码器和解码器子网(称为No_den)中的密集跳跃连接,只保留编码器子网(称为En_den)中的密集跳跃连接,以及只保留解码器子网(称为De_den)中的密集跳跃连接。三种验证模型与我们的UNFusion(L1)对三种典型红外和可见光图像对的融合结果如图4所示。由于去除了密集的跳跃连接,融合后的图像中No_den、En_den和De_den存在明显的细节损失和亮度降低。例如,对于街道和房屋,我们的UNFusion比其他三种验证模型保留了更高的行人亮度和更多的树叶细节信息。表3为定量比较结果。我们的方法得到了EN、NCIE、MI、SD、SF和VIF的最佳平均值,PC和Qabf的第二值。这是因为在编码器和解码器子网络中采用了密集的跳跃连接,所有不同尺度和层的中间特征都被重用,我们的方法比三种验证融合模型获得了更好的融合性能
在这里插入图片描述

3)不同尺度特征的研究:

为了验证不同尺度特征对融合性能的影响,我们对UNFusion网络进行了深度监督训练。简洁的训练框架如图5所示。1输出利用第一和第二刻度特征,O2输出利用第一到第三刻度特征。对于O3输出,通过网络修剪去除短连接,这与我们的UNFusion不同,并且充分利用了所有规模特征。注意,损失函数将被设计为具有相应的输出。图6给出了O1, O2, O3和我们的UNFusion(L1)的融合结果。对于Street, O1的结果具有不可接受的光晕伪影,因为只使用了一级和二级尺度特征。对于House, O1, O2, O3的结果有明显的叶片细节信息丢失。然而,我们的结果获得了更高的亮度目标和更丰富的细节。表4为不同尺度特征下的比较结果。从这些结果中,我们的UNFusion得到了NCIE、MI、SF、PC、Qabf和VIF的最佳平均值,EN和SD的第二值。总的来说,我们的UNFusion超越了其他三种深度监督,证明了多尺度密集连接结构的有效性
在这里插入图片描述

4)注意机制的实验验证:

在我们的UNFusion中,我们提出了标准化的注意模型来突出和结合原始的深度特征。为了证明我们的注意机制的有效性,采用了四种融合策略,即加法、平均、仅通道归一化注意模型和仅空间归一化注意模型,并与我们的UNFusion(L1)进行了比较。三个代表性算例的直观融合结果如图7所示。对于加法和平均融合策略,融合后的图像保留了不清晰的目标和模糊的边界,不能很好地保留源图像的纹理细节信息。对于通道和空间融合策略,前者融合结果倾向于保留丰富的纹理细节信息,后者融合结果倾向于保留突出的目标信息。然而,我们的融合结果保留了红外图像中突出的背景目标,对比度好,纹理细节丰富,视觉效果明显。表V显示了注意机制的比较结果,我们的UNFusion获得了EN、NCIE、MI、Qabf和VIF的最佳平均值,SD、SF和PC的次优值。这证明我们的通道和空间注意机制可以有效地突出重要的特征,忽略无关的特征,并且这些注意机制是互补的。因此,与其他融合策略相比,我们的UNFusion具有最佳的融合性能
在这里插入图片描述

在这里插入图片描述

D. TNO数据集实验

在本节中,我们从TNO数据集中选择了25个红外和可见光图像对,以证明与其他十种最先进的方法相比,我们的UNFusion的优越性和有效性。图8给出了Movie_18、Nato_camp、Kaptein_1123、Sandpath、Street、Movie_01和Fennek01_005这7个典型示例,图9给出了我们使用L1、L2和L∞归一化注意力模型进行UNFusion的结果,分别是WLS、DenseFuse、NestFuse、SEDRFuse、fusongan、GanMcC、PMGI、U2Fusion、IFCNN、RFN-Nest。结果表明,传统WLS方法得到的融合图像在一定程度上保留了纹理细节信息,但目标不清晰,边界模糊。相比之下,基于深度学习的方法(如DenseFuse、U2Fusion、IFCNN和RFN-Nest)可以更好地保留源图像的纹理细节信息,但红外图像的典型目标区域仍然不明显。这是因为这些方法没有考虑到注意机制,不能很好地保留高亮度信息。与上述方法相比,SEDRFuse基于注意机制进行特征融合,取得了更好的效果。但即使这样,所得到的结果仍然不能保留红外图像中目标区域的高亮度。这是因为SEDRFuse不能提取多尺度深度特征,只采用通道关注。实际上,特征图是一个三维张量,空间注意力对于图像融合任务也很重要。此外,fusongan, GanMcC和PMGI特别强调保留热目标信息,但目标区域的边界模糊,细节信息严重缺失。请注意,NestFuse提出了通道智能和空间智能关注,并且与我们的UNFusion具有相似的结果。然而,NestFuse提出了一个简单的编码器网络,其特征提取能力不足,最大池化操作不可避免地丢失了纹理细节信息。总的来说,与其他10种方法相比,我们的UNFusion可以同时保留源图像中典型的目标区域和丰富的纹理细节。此外,我们的UNFusion (L1), UNFusion (L2)和UNFusion (L∞)具有非常接近的视觉性能
在这里插入图片描述
在这里插入图片描述
为了直观地展示我们方法的优越性,在图9中,将融合结果的一些典型区域用红框标记出来。例如,在Movie_18和Nato_camp中,WLS、DenseFuse、U2Fusion、IFCNN和RFN-Nest获得的融合图像中,行人等区域的亮度变化不明显,而NestFuse、SEDRFuse、fusongan、GanMcC、PMGI和我们的UNFusion可以很好地保持行人的高亮度。然而,fusongan和GanMcC在这些目标区域中模糊了边界,我们的结果比其他方法保持了更高的对比度。在Kaptein_1123和Sandpath中,我们选择了两个典型的细节区域,如树木和栅栏。我们的结果明显突出了人类等典型目标区域的对比,同时Kaptein_1123的树木和Sandpath的栅栏也比其他方法更清晰。其他三种融合结果也可以得出相同的结论。定性比较表明,我们的UNFusion在突出目标区域和保留细节信息方面取得了比其他方法更好的融合性能,并且我们的结果具有更高的图像对比度,适合人类视觉系统。

我们进一步进行了定量实验来证明我们的UNFusion的优越性。表VI给出了TNO数据集中25对图像的定量实验结果。与其他10种方法相比,我们的UNFusion(L1)获得了MI、PC和Qabf的最佳平均值,NCIE、SF和VIF的次优值。UNFusion (L2)实现了NCIE、SD和VIF的最佳值,EN、MI、PC和Qabf的次优值。我们还对Nato_camp和Duine序列进行了定量实验。
在这里插入图片描述
在这里插入图片描述

这两个序列分别包含32和23个红外和可见光图像对。定量实验结果见表七、表八。

对于Nato_cam序列,我们的UNFusion(L1)获得了FMI、PC和Qabf的最佳平均值,NCIE、MI和VIF的次优值。UNFusion (L2)实现了NCIE、MI和VIF的最佳值,FMI、SD、PC和Qabf的次优值。对于Duine序列,我们的UNFusion(L1)获得了NCIE、MI、FMI、PC和VIF的最佳值,SF的次优值。此外,我们的UNFusion (L∞)在某些指标上获得了第三优值,仅次于UNFusion (L1, L2)。这是因为我们的UNFusion (L∞)提出了L∞范数注意模型,从初始注意矩阵或向量中进行最大选择可能会削弱融合图像中的一些有用信息。
在这里插入图片描述
在这里插入图片描述
然而,对于SSIM度量,从上述定量结果来看,我们的方法相对低于其他一些方法。这是因为采用归一化注意模型作为特征融合策略,同时保留了亮度信息和纹理细节。融合后的特征可以看作是对原始特征映射的一种权衡,这种权衡会导致融合后图像中的一些结构和边缘弱化。然而,从多指标评价的角度来看,我们的UNFusion取得了比其他方法更好的融合性能,这与上述定性结果是一致的。
在这里插入图片描述

E.道路场景数据集实验

此外,我们将在包含221对红外和可见光图像的道路场景数据集上验证我们的方法的有效性。图10给出了一个典型的红外和可见光图像对的融合结果。这些图像依次是红外图像,可见光图像,WLS, DenseFuse, NestFuse, SEDRFuse, fusongan, GanMcC, PMGI, U2Fusion, IFCNN, RFN-Nest,我们的L1, L2和L∞UNFusion的结果。融合结果中的一些典型区域用红框标记,直观地显示了我们方法的优越性。显然,我们的方法既突出了典型的热目标,又保留了丰富的纹理细节,视觉效果更好,更适合人眼观察。例如,融合结果中人的目标区域和树木的细节,我们的方法比其他方法具有更好的图像对比度和更多有意义的纹理细节信息
在这里插入图片描述

同时,表9给出了Roadscene数据集的定量实验结果。我们的UNFusion(L1)获得FMI的最佳值,其次是NCIE、MI、SD、SF、PC和VIF的最佳值。UNFusion (L2)实现了NCIE、MI、SD、PC和VIF的最佳值,而VIF是FMI的次优值。

此外,我们的UNFusion (L∞)仅次于UNFusion (L1, L2),但仍然超越了其他多指标评价的比较方法。一般来说,采用多个融合指标来评估融合方法的整体性能。因此,我们的UNFusion达到了最好的结果,并优于其他十种比较方法。

此外,在TNO数据集、Nato_camp序列和Roadscene数据集上比较了我们的UNFusion算法的计算效率。测试桌面是上述第四节描述的平台。WLS在CPU上执行,其他融合方法在GPU上执行。计算效率对比结果如表X所示。从表X可以看出,我们的UNFusion排在IFCNN和DenseFuse之后,排名第三。这是因为IFCNN和DenseFuse提出了加权平均融合规则,计算效率更高。然而,这些结果表明,我们的注意机制具有很高的计算效率。

综上所述,与其他方法相比,我们的UNFusion具有较高的计算效率,同时保持了较好的融合性能,可以满足后续实时视频处理的要求。

5、结论

在本文中,我们开发了一个统一的多尺度密集连接网络,称为UNFusion,以解决红外和可见光图像的融合问题。为了实现最优融合操作,我们创新地设计了一个多尺度的编码器-解码器网络,从水平和垂直两个方向上逐步将多尺度深度特征聚合到整个网络中。此外,编码器和解码器子网络采用了密集的跳跃连接,不同层和尺度的所有中间特征都可以很好地重用。此外,提出了空间和通道归一化注意模型,包括L1、L2和L∞三种规范,以突出和结合原有的深层特征。因此,我们的融合网络新颖高效,具有较强的特征表示和特征重构能力。

利用所提出的融合框架,对公共TNO数据集(25对图像)、Nato_cam序列(32对图像)、Duine序列(23对图像)和Roadscene数据集(221对图像)进行了广泛的实验。我们的结果同时保留了源图像中典型的目标区域和丰富的纹理细节,并通过定性比较呈现出更好的视觉效果。总的来说,与其他方法相比,我们的unfusion在融合性能和计算效率方面都取得了显著的成绩。

在未来的工作中,我们将基于我们的UNFusion开发一个端到端融合网络,并将其扩展为一个通用框架,以解决不同应用的其他融合任务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值