RXDNFuse: A aggregated residual dense network for infrared and visible image fusion

1.摘要

提出了一种新的基于聚合残差稠密网络的无监督IR/VIS融合网络RXDNFuse。与传统的融合网络相比,RXDNFuse被设计为一个端到端模型,结合了ResNeXt和DenseNet的结构优势。因此,它克服了手工和复杂的活动水平测量和融合规则的设计的局限性。建立了图像融合问题的IR/VIS图像的结构和强度的比例保持问题。RXDNFuse通过综合特征提取和组合,自动估计对应源图像的信息保存程度,提取层次特征,实现有效融合。此外,我们设计了两个损失函数策略来优化相似性约束和网络参数训练,从而进一步提高了详细信息的质量。我们还推广了RXDNFuse,以融合不同分辨率的图像和RGB尺度的图像。

注:
1.ResNeXt其好处就是在保证了FLOPs和参数量的前提下,通过更宽或者深的网络,来提高精度。
2.在图像处理中,"活动水平"通常指的是图像中的像素值变化程度或者梯度大小。在图像融合中,通过测量不同模态图像中的活动水平,可以确定哪些区域或像素在图像中具有重要信息。例如,在红外图像中,热点区域通常具有较高的活动水平,而在可见光图像中,物体的纹理和形状通常具有较高的活动水平。因此,在融合这两种类型的图像时,需要考虑如何保留这些重要信息以获得更好的融合结果。
3.测量图像中的活动水平通常可以使用梯度算子来实现。梯度算子可以计算每个像素周围像素值的变化程度,从而得到该像素的梯度大小和方向。在图像处理中,常用的梯度算子包括Sobel、Prewitt、Roberts等。在使用梯度算子计算图像中的活动水平时,通常不需要人工干预。这是因为梯度算子是一种自动化的方法,可以对图像进行快速、准确的处理。然而,在某些情况下,可能需要对梯度算子进行参数调整或者对处理结果进行后处理,以获得更好的效果。在这种情况下,可能需要人工干预来优化算法或者调整参数。

2.引言

近年来,图像融合任务已经以不同的方案得到了发展。现有的融合方法大致可以分为两类:

  • 传统方法:最典型的是多尺度变换方法被应用于提取图像显著特征,例如离散小波变换(DWT),基于表示学习的方法也引起了极大的关注,例如稀疏表示(SR)和联合稀疏表示(JSR)基于子空间的方法、基于显著性的方法和混合模型也已应用于图像融合任务
  • 基于深度学习的方法:鉴于深度学习技术的快速发展,卷积神经网络(CNN)用于获得图像特征并重建融合图像。由于神经网络的强大拟合能力,基于CNN的方法在图像处理中获得了更好的性能。

首先,目前大多数方法中的当前融合规则越来越复杂并且以手动方式设计,这些规则将某些伪影引入融合结果中。第二,在基于CNN的融合方法中,只使用最后一个特征提取层的输出作为图像融合分量,这种方式无疑丢弃了中间卷积提取层获得的大量有用信息,直接影响最终融合性能;第三,现有的融合方法由于计算复杂、参数量大,通常在时间和存储空间上缺乏竞争力。

为了克服上述挑战,我们提出了一个端到端的网络,即RXDNFuse,执行红外和可见光图像融合任务。该网络不需要人工设计融合规则,可以有效利用从源图像中提取的深度特征。更具体地说,红外热辐射信息的特征在于像素强度,而可见光图像中的纹理细节信息的特征通常在于边缘和梯度,源图像中细节的保留通常决定了融合图像的清晰度。

为了进一步提高这种性能,我们设计了两个损失函数策略,即像素策略和特征策略,以迫使融合图像具有更多的纹理细节。此外,设计了新的特征提取模块RXDB,进一步减轻了融合框架的负担,提高了图像融合的时间效率。不同的图像融合方法的示意图如图1所示
在这里插入图片描述

我们工作的特点和贡献可以概括为以下四个方面:

  • 首先,我们提出了一个端到端的融合架构的基础上聚合的残差稠密网络来解决红外和可见光图像融合问题。该方法有效地避免了人工设计复杂的图像分解、测量和融合规则的需要,充分利用了源图像的层次特征。
  • 其次,我们提出了两种损失函数策略来优化模型相似性约束和细节信息的质量,其中像素策略直接利用源图像的原始信息,而特征策略基于预训练的VGG-19网络计算更详细的损失函数
  • 第三,我们在公共红外和可见光图像融合数据集上进行实验,并与最先进的方法进行定性和定量比较。与现有的5种方法相比,本文提出的RXDNFuse融合结果在背景信息中获得了良好的视觉质量,同时也包含了突出的热辐射目标信息。最后,将RXDNFuse推广到不同分辨率图像和RGB尺度图像的融合,使其能够生成清晰自然的融合图像。

3.相关工作

He et al.在CVPR 2016中提出了一种新的网络架构,名为ResNet。ResNet将一些输入信息直接传输到输出,以保护信息的完整性。整个网络只需要学习输入和输出之间的差异作为残差表示,这简化了学习,并随着深度的增加而提高了准确性。图2(a)示出了残差块的基本架构

DenseNet深度学习网络模型在CVPR 2017中,Huang et al.引入了一种具有密集块的新颖架构,允许任何层直接连接到所有后续层。通过其特征重用和旁路设置,DenseNet不仅大大减少了网络参数的数量,而且还减轻了梯度消失问题,从而简化了网络训练。图2(b)显示出了密集块的基本架构。

在CVPR 2018中,Zhang et al.提出了一种新的残差稠密网络(RDN)来解决图像超分辨率(SR)问题。所提出的网络充分利用了所有卷积层的分层特征。具体来说,他们提出了一种残差密集块(RDB),通过密集连接的卷积层提取丰富的局部特征。RDB允许每个先前的RDB直接连接到当前RDB的所有层,从而通过RDB中的局部特征融合自适应地学习更有效的特征,并进一步稳定更深的网络训练。通过实验,他们表明该网络实现了最先进的图像SR性能,所提出的架构如图2(c)所示
在这里插入图片描述

4.Method

4.1. Problem formulation

下图是网络架构图:
在这里插入图片描述

  • 在训练阶段,注意所有输入图像对被处理以进行预配准
  • 在特征处理流程中,将 𝐼 𝑟 𝐼_𝑟 Ir 𝐼 𝑣 𝐼_𝑣 Iv在通道维度上叠加得到 𝐼 𝑟 , 𝑣 𝐼_{𝑟,𝑣} Ir,v , 然后,我们将堆叠 𝐼 𝑣 , 𝑟 𝐼_{𝑣,𝑟} Iv,r图像放入BFEnet中,BFEnet提取基本的浅层特征。
  • BFEnet的输出形成RXDBs的输入,RXDB进一步提取分层特征。 随后,我们进行全局特征融合(GFF),它充分利用了所有的前一层的功能,以获得输入图像的全局层次特征。
  • 最后,RBNet重构所有全局特征信息。

所提出的网络架构是基于聚合残差密集网络设计的,如图4所示,具体而言,网络架构主要由四部分组成:基本特征提取网络(BFEnet)、聚合残差密集块(RXDB)、全局特征融合(GFF)和重构块网络(RBnet)。
在这里插入图片描述
RXDNFuse和RXDB的具体架构分别如表1和表2所示:
在这里插入图片描述
在我们的RXDNFuse中,每一层的步幅都设置为1,并且在卷积中使用适当的填充操作来保持输入和输出的大小相同。

  • 基本特征提取网络(BFEnet)
    • 我们建立了两个包含3 × 3内核的卷积层来提取基本的浅层特征。特别地,第一卷积层从拼接的输入图像中提取特征 𝐼 𝑣 , 𝑟 𝐼_{𝑣,𝑟} Iv,r,并且我们进行残差连接以实现特征重用。我们继续提取浅层特征,然后将上述特征输入到RXDB中,充分提取图像的层次特征。
  • 聚合残差密集块 (RXDB)
    • 为了进一步减少网络计算和提高网络框架融合性能,我们提出了一个新的架构RXDB作为多分支架构,利用分裂-变换-合并策略,在我们的模块中的一个分支执行一组变换,每个变换都在一个低维嵌入上,其输出通过求和进行聚合。我们将聚合变换集的基数设置为2,其中我们的模块由残差块和残差密集块组成。所提出的聚合残差密集块(RXDB)架构在图1中示出。第2段(d)分段。特别是,我们在RXDNFuse框架中堆叠了六个RXDB。更准确地说,每个RXDB包含三个分支,以提高提取特征的多样性,允许它充分使用块内每个卷积层提取的深度特征。每个分支中的第一个1 × 1层产生低维特征映射,用于降低输入特征的维数,从而减少模块中内部特征的卷积计算开销。
  • 全局特征融合 (GFF)
    • 在用RXDB提取层次特征后,我们进行GFF以进一步整合提取的图像特征信息,其包含两个部分(DFF和GRL)。密集特征融合(DFF)通过融合来自所有RXDB的特征来提取密集特征。此外,我们使用全局残差学习(GRL),使BFEnet和RXDBs之间的信息残差连接,所以用于图像重建的最终图像特征取决于以前的深层次的功能,以及浅层次的功能的输出。
  • 重构块网络 (RBnet)
    • 我们的重构块RBnet的网络架构是一个简洁的三层卷积神经网络,它对全局特征起作用,其中第一层和第二层使用3×3滤波器,最后一个卷积层的内核大小为1×1,激活函数设置为tanh。我们使用这种简单而有效的架构来重建融合图像。

4.2 Loss function

为了进行网络训练,我们需要准确地评估融合图像与输入图像之间的信息相似度,为了进行网络训练,我们需要准确地评估融合图像和输入图像对之间的信息相似性,使信息损失最小化,以有效地保留来自红外图像的热辐射信息 𝐼 𝑟 𝐼_𝑟 Ir和来自可见光图像的纹理细节信息 𝐼 𝑣 𝐼_𝑣 Iv。它由两部分组成,定义如下: L = L s t r u c t u r e + α L i n t e n s i t y L=L_{structure}+\alpha L_{intensity} L=Lstructure+αLintensity

𝐿 𝑠 𝑡 𝑟 𝑢 𝑐 𝑡 𝑢 𝑟 𝑒 𝐿_{𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒} Lstructure术语表示两个图像的结构相似性,并且旨在将来自输入图像 𝐼 𝑟 , 𝐼 𝑣 𝐼_𝑟 , 𝐼_ 𝑣 Ir,Iv的丰富纹理细节保留到融合图像中 𝐼 𝑓 𝐼_𝑓 If。此外,约束 𝐿 𝑖 𝑛 𝑡 𝑒 𝑛 𝑠 𝑖 𝑡 𝑦 𝐿_{𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦} Lintensity融合图像以维持与源图像相似的强度分布。在这里,我们使用一个正参数𝛼来控制权衡。

4.3 评估损失函数的策略

最小化损失函数𝐿,以迫使融合图像近似的结构相似性和强度分布相似的源图像,并获得最先进的融合性能。为了更有效地最小化损失值,并获得更准确的近似最优解,我们设计了两种策略来评估损失函数

  • Pixel-wise Strategy : 像素级丢失策略作为一种常用的图像处理策略,在计算机视觉中得到了广泛的应用。在像素级,结构相似性指数度量(𝑆𝑆𝐼𝑀)是最流行和最有效的度量,根据光,对比度和结构信息中的相似性对失真进行建模。因此,我们选择它来约束输入图像 I r , I v I_r,I_v Ir,Iv和输出图像 I f I_f If之间的结构相似性。图5示出了逐像素策略的示意图。正式 𝐿 𝑠 𝑡 𝑟 𝑢 𝑐 𝑡 𝑢 𝑟 𝑒 𝐿_{𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒} Lstructure定义如下: L s t r u c t u r e = λ ( 1 − S S I M ( I f , I r ) ) + ( 1 − λ ) ( 1 − S S I M ( I f , I v ) ) H ∗ W L_{structure}=\frac{\lambda (1-SSIM(I_f,I_r))+(1-\lambda)(1-SSIM(I_f,I_v))}{H*W} Lstructure=HWλ(1SSIM(If,Ir))+(1λ)(1SSIM(If,Iv))

    第二项 𝐿 𝑖 𝑛 𝑡 𝑒 𝑛 𝑠 𝑖 𝑡 𝑦 𝐿_{𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦} Lintensity指示两个图像的强度损失,其定义如下: L i n t e n s i t y = δ ⋅ ∣ ∣ I f − I r ∣ ∣ F 2 + ( 1 − δ ) ⋅ ∣ ∣ I f − I v ∣ ∣ F 2 H ⋅ W L_{intensity}=\frac{\delta⋅||I_f-I_r||_F^2+(1-\delta)⋅||I_f-I_v||_F^2}{H⋅W} Lintensity=HWδ∣∣IfIrF2+(1δ)∣∣IfIvF2
    在这里插入图片描述

  • Feature-wise Strategy :逐像素策略提供像素级信息损失的粗略估计。为了获得更详细的损失信息,我们考虑采用感知损失进行优化。我们提出了基于逐特征的策略,该策略𝐿基于高性能的VGG-19网络评估损失函数。在这项工作中,我们应用一个归一化的VGG-19模型从𝐼𝑟,𝐼𝑣和𝐼𝑓中提取层次特征信息。最后,我们利用这个特征空间来计算损失。 因此,我们将输入和融合图像复制到三个通道中,然后将它们馈送到VGG-19中。我们在最大池化层之前选择卷积层的特征图来估计结构相似性和强度分布。该策略的程序如图6所示。浅卷积层的特征图表示纹理和形状细节。通过比较,较高层的特征图主要保留内容和空间结构。因此,浅层和深层特征的组合形成了基本信息的综合表示。在深度学习框架中,梯度是基于具有小感受野的局部空间结构的有效度量,同时在计算和存储方面更有效。因此,我们将结构相似性约束问题转化为特征策略中梯度信息的维护问题。结构损耗𝐿形式化为: L s t r u c t u r e = ∑ i = 1 5 ∑ j = 1 D i ( λ ∣ ∣ ▽ ϕ F i j − ▽ ϕ R i j ∣ ∣ F 2 + ( 1 − λ ) ∣ ∣ ▽ ϕ F i j − ▽ ϕ V i j ∣ ∣ F 2 ) 5 H W D i L_{structure}=\frac{\sum_{i=1}^5\sum_{j=1}^{D_i}(\lambda||▽\phi_{F_i^j}-▽\phi_{R_i^j}||_F^2+(1-\lambda)||▽\phi_{F_i^j}-▽\phi_{V_i^j}||_F^2)}{5HWD_i} Lstructure=5HWDii=15j=1Di(λ∣∣▽ϕFijϕRijF2+(1λ)∣∣▽ϕFijϕVijF2)

​ 类似地, 𝐿 𝑖 𝑛 𝑡 𝑒 𝑛 𝑠 𝑖 𝑡 𝑦 𝐿_{𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦} Lintensity表示第i个最大池化层之前的卷积层的特征图的强度损失项,强度损失的定义被公式化为: L s t r u c t u r e = ∑ i = 1 5 ∑ j = 1 D i ( δ ∣ ∣ ▽ ϕ F i j − ▽ ϕ R i j ∣ ∣ F 2 + ( 1 − δ ) ∣ ∣ ▽ ϕ F i j − ▽ ϕ V i j ∣ ∣ F 2 ) 5 H W D i L_{structure}=\frac{\sum_{i=1}^5\sum_{j=1}^{D_i}(\delta||▽\phi_{F_i^j}-▽\phi_{R_i^j}||_F^2+(1-\delta)||▽\phi_{F_i^j}-▽\phi_{V_i^j}||_F^2)}{5HWD_i} Lstructure=5HWDii=15j=1Di(δ∣∣▽ϕFijϕRijF2+(1δ)∣∣▽ϕFijϕVijF2)

4.4 The effect of different strategies and hyperparameters

分析了损失函数对我们的方法的影响。我们在损失函数中选择不同的策略组合和不同的超参数(等式1)来评估我们的融合框架的性能。

定性比较

设置了20组对比实验。策略组合包含五个类别:

  • 𝑃𝑖𝑥𝑒𝑙(𝐿𝑠𝑡𝑟,𝐿𝑖𝑛𝑡):𝐿𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒和𝐿𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦通过逐像素策略计算;
  • 𝑃𝑖𝑥𝑒𝑙(𝐿𝑠𝑡𝑟)+𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿𝑖𝑛𝑡):𝐿𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒通过逐像素策略计算,并且𝐿𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦通过逐特征策略计算;
  • 𝑃𝑖𝑥𝑒𝑙(𝐿𝑖𝑛𝑡)+𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿𝑠𝑡𝑟):𝐿𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒通过逐特征策略计算,并且𝐿𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦通过逐像素策略计算;
  • 𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿𝑠𝑡𝑟,𝐿𝑖𝑛𝑡):𝐿𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒和𝐿𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦通过逐特征策略计算;
  • 𝑃𝑖𝑥𝑒𝑙(𝐿)+𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿):该组将逐像素策略(𝑃𝑖𝑥𝑒𝑙(𝐿𝑠𝑡𝑟,𝐿𝑖𝑛𝑡))和逐特征策略(𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿𝑠𝑡𝑟,𝐿𝑖𝑛𝑡))组合以形成最终损失函数计算。

此外,我们的工作选择了四组超参数值 ( 1 𝑒 − 1 , 1 𝑒 0 , 1 𝑒 1 和 1 𝑒 2 ) (1𝑒^{-1} ,1𝑒 ^0,1𝑒 ^1和1𝑒^ 2) 1e11e01e11e2。TNO数据集的定性结果如图7所示:
在这里插入图片描述

定量比较

我们计算了21对TNO数据集的平均质量度量值。这些值示于表3中。最佳值以粗体红色表示,次佳值以粗体黑色斜体表示,第三佳值以蓝色字体表示。我们可以看到,这种策略组合𝑃𝑖𝑥𝑒𝑙(𝐿)+𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿)实现了最佳的融合性能。特别地, 𝑃 𝑖 𝑥 𝑒 𝑙 ( 𝐿 ) + 𝐹 𝑒 𝑎 𝑡 𝑢 𝑟 𝑒 ( 𝐿 ) _ 1 𝑒 1 𝑃𝑖𝑥𝑒𝑙(𝐿)+𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿)\_1𝑒^1 PixelL+FeatureL_1e1在和上排名第一𝐹𝑀𝐼𝑊𝑀𝑆𝑆𝑆𝐼𝑀,并且在其余度量中获得可比较的结果。
在这里插入图片描述
基于以上观察,组合 𝑃 𝑖 𝑥 𝑒 𝑙 ( 𝐿 ) + 𝐹 𝑒 𝑎 𝑡 𝑢 𝑟 𝑒 ( 𝐿 ) _ 1 𝑒 1 𝑃𝑖𝑥𝑒𝑙(𝐿)+𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿)\_1𝑒^1 PixelL+FeatureL_1e1在定性和定量评估中实现比其竞争者更好的融合性能。值得注意的是,x当选择不同的融合策略时,𝐿𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒和𝛼𝐿𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦和之间的差异的顺序会适当地改变,因此相同的比率𝛼将导致不同的融合性能。此外,当在网络训练期间损失函数中的𝐿𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒比例过大时,可能出现结构伪影。损失函数的比例在网络训练中也是至关重要的,并且与融合结果的感知性能密切相关。值得注意的是,在以下比较实验中,我们选择 𝑃 𝑖 𝑥 𝑒 𝑙 ( 𝐿 ) + 𝐹 𝑒 𝑎 𝑡 𝑢 𝑟 𝑒 ( 𝐿 ) _ 1 𝑒 1 𝑃𝑖𝑥𝑒𝑙(𝐿)+𝐹𝑒𝑎𝑡𝑢𝑟𝑒(𝐿)\_1𝑒^1 PixelL+FeatureL_1e1来全面计算损失函数。

4.5 Results on TNO dataset

定性比较

为了给RXDNFuse的融合性能提供一些直观的结果,我们的定性实验涉及来自TNO数据集的红外和可见光图像融合。具体来说,我们选择了四个典型的图像对,目前的融合性能。

来自五种比较方法和我们提出的RXDNFuse的所有定性结果如图8所示:
在这里插入图片描述
从融合结果来看,五种对比融合方法的融合结果差异明显,可以在一定程度上判断融合结果的有效性。其中,GTF的显著特征呈现不佳,包含相对较多的噪声(例如,第一行中的残肢),部分图像细节模糊。如突出显示的区域中所示,GTF和DDcGAN丢失一些细节,例如,士兵、徽标和雨篷。相比之下,U2Fusion和我们的RXDNFsue通过提供更多细节来缓解这个问题。此外,在低纹理和黑暗的情况下,RXDNFuse更充分地保留了融合结果中的信息,同时保留了适当的整体图像强度。

定量比较

我们进一步对TNO中的42个对齐图像对进行六种方法的定量比较。我们选择𝐸𝑁上述、𝑀𝐼、𝑄𝑎𝑏𝑓、𝐹𝑀𝐼𝑝𝑖𝑥𝑒𝑙,𝑆𝐶𝐷、𝑃𝑆𝑁𝑅,𝑆𝑆𝐼𝑀𝑎和𝑀𝑆_𝑆𝑆𝐼𝑀和来评估融合结果。这些图像对的平均值在表4中示出。具体地,每个质量度量的最佳值以粗体红色指示,并且次佳值以粗体蓝色指示:
在这里插入图片描述

4.6 Results on INO dataset

定性比较

接下来,我们在INO数据集上测试了我们的方法和五种比较方法,以进行定性和定量评估,其中我们选择了12个可见光和红外图像对,这些图像涉及来自名为Trees And Runner和Visitor Parking的视频中的丰富场景目标。具体来说,我们选择了三个典型的融合结果进行定性比较。如图9所示,红外图像涉及突出显示的热辐射信息,例如,人和汽车,而可见光图像包含丰富的图像背景细节。总体而言,与其他方法相比,我们提出的RXDNFuse实现了更高的相关性和相似性与源图像,并产生更少的失真/噪声。对于局部细节,我们的结果具有更清晰和更逼真的纹理,例如道路上的裂缝和污渍。总的来说,我们的结果是更适合人眼的感知与适当的强度分布。
在这里插入图片描述
定量比较
在这里插入图片描述

4.7 Results on OTCBVS dataset

定性比较

在这里插入图片描述
定量比较
在这里插入图片描述

4.7 Comparative experiment of RXDN architecture

在本节中,我们通过与ResNet、DenseNet和RDN的比较,验证了RXDN在公开数据集上的效率。一方面,我们验证了应用改进的RXDN架构的性能影响。另一方面,我们调查的参数和计算(FLOPS)的融合网络RXDNFuse。考虑到我们的RXDNFuse足够深入,我们选择了这个网络架构比较实验,以更清楚地看到计算和参数的减少。特别是,我们添加了六个架构模块,我们的网络分层特征提取。

图11示出了四种架构在几个不同场景上的一些典型融合结果。我们可以发现,所有的四个架构保持辐射和背景信息很好,但在细节信息的保存表现出差异。例如,ResNet和DenseNet的所有结果中红框中的细节都有些模糊,但在其他两个架构中它们是清晰的。此外,与原始RDN相比,我们的融合结果中的目标更加突出和突出,对比度和饱和度得到更好的保留。因此,我们得出结论,聚合变换可以提高融合图像的细节质量,并保留更多的纹理信息。
在这里插入图片描述
为了进一步验证网络的时间效率,我们还提供了四种架构的参数和计算(FLOPS)比较,如表7所示。我们的网络架构实现了更有效的效率比其他比较架构。
在这里插入图片描述

4.8 Application for RGB images

在我们的工作中,除了灰度图像融合任务,我们应用RXDNFuse融合RGB可见光图像和红外图像。为此,我们对网络框架进行了一些修改。我们从INO和OTCBVS数据集收集了输入源图像对用于测试。
在这里插入图片描述
如图12所示,我们应用改进的网络融合这些图像对,并获得RGB融合图像。当我们处理RGB尺度图像时,我们将每个RGB通道视为一个单个灰度图像。因此,当源图像对被馈送到我们的网络框架中时,我们需要将RGB尺度图像的三个通道依次连接在一起。然后,我们获得一个6通道图像容器,用作RXDNFuse的输入。最后,RXDNFuse输出三个融合通道,我们将它们组合起来形成最终的融合RGB图像。我们选择了四个RGB图像对作为示例,其融合结果如图13所示
在这里插入图片描述

4.8 Application for images with different resolutions

我们进一步推广我们的RXDNFuse,以融合具有不同空间分辨率的红外和可见光图像,如热泛锐化,其中红外图像显示低分辨率,可见光图像显示高分辨率。

为此,我们做了以下三个修改,其他所有训练设置都与前面的实验相同。首先,我们将所有红外图像随机下采样到原始图像尺度的𝜀比率(即,𝜀< 1,这里我们随机设置𝜀= 0.7,0.5,0.3)作为新的低分辨率源红外图像,而可见光图像保持原始尺度。我们从TNO数据集中选择了六个典型的图像对作为测试数据。其次,由于红外和可见光图像的空间分辨率不同,我们不能将它们连接在一起直接进行训练或测试。为了使低分辨率红外图像具有与可见光图像相同的分辨率,Meta-SR 被应用于具有上采样因子的图像超分辨率处理。随后,我们将它们连接并放入我们的RXDNFuse。第三,由于融合图像和红外图像也具有不同的分辨率,我们重新设计损失函数𝐿𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒,𝐿𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑦并且公式为:
在这里插入图片描述
其中𝛩是下采样操作,其旨在将融合图像下采样到与低分辨率红外图像相同的分辨率。特别地,上采样红外图像将不可避免地引入额外的噪声,导致不令人满意的结果。因此我们选择对融合图像进行下采样而不是对红外图像进行上采样。

对于所有五种比较方法,我们必须首先通过对可见光图像进行下采样或对红外图像进行上采样来消除分辨率差异。为了尽可能避免信息的丢失,在融合前对红外图像进行超分辨率处理的所有比较方法中,我们都使用了Meta-SR。我们从TNO数据集中选择六个典型的图像对进行定性评价。所有融合图像如图14所示。从所有这些融合结果中,我们可以得到与以前的实验相同的结论。与其他五种比较方法相比,本文的融合结果更加清晰,能够更好地同时保持热辐射和纹理细节。

5. Conclusion

提出了一种基于聚合残差稠密网络的红外与可见光图像融合方法。提出的RXDNFuse是一种端到端的模型,可以有效地避免人工设计的图像分解测量和融合规则。该方法能同时较好地保留红外图像的热辐射信息和可见光图像的纹理细节信息。具体地说,我们的融合结果看起来像详细的可见图像与清晰的突出显示的目标,对比度和饱和度得到更好的保留。我们提出了两种计算策略,即。像素策略和特征策略。像素策略直接计算源图像和融合图像之间的损失值,而特征策略方法基于预训练的VGG19网络,从源图像和融合图像中提取深度特征,我们计算这些特征的更详细的损失函数。因此,我们结合收割机这两个损失的策略,以获得更好的融合结果在实验中。

在TNO、INO和OTCBVS公开数据集上验证了RXDNFuse的有效性和通用性,大量定性和定量评价表明,RXDNFuse在同时保留热辐射信息和纹理细节信息方面优于现有的5种融合方法.最后,我们推广到融合RGB尺度的图像和不同分辨率的图像。我们相信,我们提出的RXDNFuse和新的损失函数策略可以应用于其他图像融合任务。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值