【阅读笔记】U2Fusion: A Unified Unsupervised Image Fusion Network

论文下载地址:U2Fusion: A Unified Unsupervised Image Fusion Network | IEEE Journals & Magazine | IEEE Xploreicon-default.png?t=N7T8https://ieeexplore.ieee.org/abstract/document/9151265

代码下载地址:https://github.com/hanna-xu/U2Fusion.


摘要

        本研究提出了一种新的统一的无监督端到端图像融合网络,称为U2Fusion,它能够解决包括多模态、多曝光和多焦点情况在内的不同融合问题。U2Fusion通过特征提取和信息测量,自动估计相应源图像的重要程度,并给出自适应的信息保存度。因此,不同的融合任务统一在同一个框架中。基于自适应程度,训练网络以保持融合结果与源图像之间的自适应相似性。通过避免对不同任务连续训练单个模型时原有融合能力的丧失,得到了一个适用于多个融合任务的统一模型。此外,还发布了一个新的红外和可见光图像数据集RoadScene(可在https://github.com/hanna-xu/RoadScene获得),为基准评估提供了一个新的选择。三个典型图像融合任务的定性和定量实验结果验证了U2Fusion的有效性和通用性。

一、简介

        图像融合的应用十分广泛,他的应用范围从安全到工业和民间领域。但是由于设备的限制以及光学成像的限制,捕获的图片中只能捕获到部分信息。

        图像融合的操作主要应用于多模态、多曝光或多焦点图片。图像融合的目标:将不同传感器或光学设置捕获的多个源图像的互补信息进行融合,生成一张合成图像。

        单个融合图像具有较好的场景表示和视觉感知能力,适合后续的视觉任务。

        为了解决上述问题,以及开发了大量的算法,大致可以分为两类:①、基于传统融合框架的算法、②、基于端对端的模型的算法。但这些算法仍存在一些未解决的问题。在基于传统融合框架的方法中,融合规则的选择以及人工设计的复杂性限制了性能的提高;在基于端对端模型的方法中,融合依赖监督学习的基础真理GT或者是特殊设计的非监督学习度量来解决。但是,不存在用于多任务的基础真理GT或无参考考量值。这些问题构成了模型统一性和监督或无监督学习应用的主要障碍。

        同时,不同的融合任务往往具有相似的目标,也就是说,通过整合源图像的重要信息和互补信息来生成一张合成图像。但是,在不同的任务中,由于源图像的类型不同,需要采集的重要信息也会有很大的区别(3.1),因此大多数方法仅限于特定任务适用。由于神经网络具有较强的特征表示能力,可以统一地表示各种各样的信息。因此可能会有一个统一的融合框架,这也就是本篇论文所探讨的内容(一个统一的融合框架)。

        此外,通过在一个统一的模型中解决不同的融合问题,发现这些任务可以相互促进。例如,给定的一个已经被训练用于多曝光图像融合统一的模型,它能够提高多模态或多焦点图像中曝光不足或曝光过度区域的融合性能。因此通过收集多个任务的优势,这个统一模型可以使每个单一的融合任务获得更好的结果,并具有比多个单独训练模型更强的泛化能力。

        为了解决上述问题,此论文中提出了U2Fusion:A Unified Unsupervised Image Fusion Network,一个统一的无监督图像融合为网络。

        对于信息保存,首先采用特征提取器从源图像中提取丰富的特征信息。然后度量特征信息的丰富程度来确定特征的相对重要性,从而反映出源图像与融合结果之间的相似关系(特征信息越丰富,特征也就越重要,相似度就越高)。相似度越高,源图像中的更多特征信息被保留在结果中,从而导致信息保留程度越高。在此基础上,DenseNet被训练用于生成融合结果,但不需要GT。

此论文一共有以下几点贡献:

  1. 提出了一个用于各类图像融合任务的统一框架。具体而言,就是利用一个统一的模型和统一的参数解决了不同的融合问题。成功地克服了一些缺点,比如对于不同问题的单独解决方案、训练时的存储和计算问题以及持续性学习的灾难性遗忘。
  2. 开发了一种新的无监督图像融合网络,通过约束融合图像和源图像之间的相关性来克服大多数图像融合任务中的普遍障碍,即,缺乏通用的基础事实和无参考指标。
  3. 提供了一个新的数据集,RoadScene,为图像融合框架的基准评估提供了一个新的选择
  4. 在六个数据集上测试了U2Fusion的可行性,测试了多模态、多曝光、多焦点图像的图像融合,定性和定量的结果验证了U2Fusion的有效性和通用性。

二、相关工作

2.1 图像融合方法

2.1.1 基于传统融合框架的方法

        传统的融合框架可以大致概括为图2。

        由于重建通常是提取的逆过程,因此这些算法的关键在于两个重要因素:特征提取和特征融合。通过修改它们,这些方法可以设计用于解决多模态、多曝光或多焦点图像融合。

        为了解决特征提取问题,人们提出了大量的传统方法。它们所依据的理论可分为四类代表:1)多尺度变换,如拉普拉斯金字塔(LP)、低通比金字塔(RP)、梯度金字塔(GP)、离散小波变换(DWT)、离散余弦变换(DCT)[13]、曲线变换(CVT)、shearlet等;Ii)稀疏表示[14];iii)子空间分析,如独立成分分析(ICA)、主成分分析(PCA)、非负矩阵分解(NMF)等;iv)混合方法。然而,这些人工设计的提取方法使得融合方法越来越复杂,从而加大了融合规则设计的难度。针对不同的融合任务,需要对提取方法进行相应的修改。因此,需要更多地关注到考虑提取方法的适当性,以确保特征的完整性。为了克服这些局限性,一些方法在特征提取中引入卷积神经网络(CNN),要么作为部分子部分[15],[16],要么作为整个部分[17],[18]。

        然后,根据提取的特征确定融合规则;常用的规则包括最大值、最小值、加法、11范数等。然而,这些人工设计的融合规则的限制选择即使在一些基于cnn的方法中也会对性能的提高产生玻璃天花板。

        值得注意的是,也有一些方法脱离了这一框架,如基于梯度转移和总变差最小化的VIS-IR图像融合方法[19],基于结构相似指数优化的多曝光图像融合方法[20],基于密集SIFT的多聚焦图像融合方法[21]等。然而,这些方法所基于的算法或指标是专门用于特定的融合任务的,可能不能很好地泛化。

2.1.2 端到端模型

        为了避免设计融合规则,许多基于深度学习的算法被提出。与2.1.1节中的方法不同,这些方法通常是针对特定融合任务量身定制的端到端模型。
多模态图像融合。多模态图像融合的端到端模型通常是为VIS和IR图像融合而设计的。Ma等人通过        建立生成器和鉴别器之间的对抗博弈来保持红外图像中的像素强度分布和VIS图像中的细节,从而提出了fusion - an[5]。后来,它的变体[22]被提出,通过引入目标增强损失来锐化热目标的边缘。DDcGAN[23],[24]通过引入双鉴别器结构来增强热目标的突出性。然而,VIS和IR图像融合的独特问题是保留像素强度分布和细节,这并不适用于其他融合任务。此外,在这类任务中通常不存在基础真理。因此,这是在多模态图像融合中应用监督学习的主要障碍。
        多曝光图像融合。为了解决这一问题,人们提出了一些无监督的方法。Prabhakar等人提出了Deepfus,其中采用无参考度量MEF-SSIM作为损失函数。然而,MEFSSIM是专门为多曝光图像设计的,它丢弃了亮度分量,因为它在这个问题上并不重要。尽管如此,它在其他任务中仍然发挥着重要作用。因此,MEF-SSIM不适用于其他问题。在一些多曝光数据集中,没有监督学习的基本事实。
        多焦点图像融合。针对这个问题,Liu等人提出了一种生成焦点图的网络。用于监督学习的预定义标签表明它们是高质量图像还是高斯模糊图像。然后,将其扩展为通用的图像融合框架。根据泛化程度,多焦点图像融合训练的模型可以用于解决其他任务。此外,Guo等人提出了FuseGAN,其中生成器直接生成二进制焦点掩模,鉴别器试图将生成的掩模与ground truth区分开来,ground truth是利用归一化的磁盘点扩散函数并分离背景和前景合成的。焦点映射/蒙版在多焦点图像融合中具有重要意义,而在其他任务中则不是必需的,甚至不适用。所有这些方法都是基于监督学习。

        我们的方法考虑到上述局限性,提出了一种统一的无监督图像融合网络,该网络具有以下特点:i)它是一个端到端的模型,不受人工设计的融合规则的限制。ii)它是各种融合任务的统一模型,而不是特定目标,例如,独特的问题,度量的特殊性,二元掩模的需要等。iii)它是一个不需要基础真值的无监督模型。iv)通过不断学习解决新任务而不丢失旧能力,以统一的参数解决多个任务。

2.2 持续性学习

        在持续学习的环境中,学习被认为是要学习的一系列任务。在训练阶段,权重被适应于新的任务,而不会忘记以前学过的任务。为了避免存储以前学习过的任务的训练数据,提出了许多基于弹性权合并的算法,其中包括一个正则化项来强制参数保持与以前任务训练的参数接近。这些技术已经广泛应用于许多实际问题中,如人员再识别、车辆实时检测、情绪识别等。在本研究中,通过持续学习来解决多个融合任务。

三、研究方法

        本文提出的方法允许使用不同的传感器或不同的拍摄设置,从相同的相机位置拍摄照片捕获信息。

3.1 问题公式化

        本文提出的模型是基于度量来确定源图像中重要信息的丰富度,而关键点也就在与,如何进行度量,即研究一种统一的度量方法来确定图像信息的保存程度。在不同的研究任务中,由于研究对象的不同,之前针对特定人物设计的特定度量方式也就无效。且这些方法都是基于一定的表层特征或特定的性质,很难提前进行预测。为此,本文中提取了浅层特征(纹理、局部形状)和深层特征(内容、空间结构)来评估信息度量。

        U2Fusion的流程图如图3所示。I1和I2表示源图像,两者进行结合来训练DenseNet网络,进而生成一个融合图像If。对源图像进行提取之后,生成特征图,然后对这些特征图进行信息测量,得到两个测量值g1和g2,经过后续的处理,最终的信息保存度最终表示为w1和w2。I1、I2、If、w1、w2都用来优化损失函数,此时并不需要GT。在训练阶段中,测量w1和w2,并且用来定义损失函数,然后优化DenseNet模块以最小化损失函数。在测试阶段,w1、w2不需要测量。

3.1.1 数据提取

        受到感知损失的启发,使用预训练的VGG16网络进行数据提取,如图4所示。

        在此模型中,输入I已经统一到一个通道中(转换在3.5中提出)。如上图所示,在最大池化层之前输出的结果是用于后续测量的特征图,在图5中给出了更直观的表示:

        图5左侧是过度曝光的图片,右侧是曝光不足的图片。左右两侧相对比,过度曝光的图片能够提供更多的细节和纹理(因为亮度足够)。前两行的特征图是基于前特征的,对比可知过度曝光提供的纹理比较多,而对于后两行的特征图,主要保留了深层的特征,可比较和附加的信息存在于曝光不足的图片的特征图中,因此深浅层特征的结合形成感知信息的基本表示。

总结:浅层特征过度曝光的特征图提供的特征信息多,深层特征曝光不足的特征图提供的特征信息多。两者结合构成感知信息的基本表示。

3.2.2 信息测量

        为了测量提取出的特征途中包含的信息,使用特征图中的梯度进行评估。信息计量定义如下:

        是图四中第j个最大池化层之前通过卷积层得到的特征图,K表示在Dj通道中第k个通道的特征图。||.||F表示Frobenius范数,▽表示拉普拉斯算子

3.1.3 信息保存度

        分配了两个自适应权重w1、w2作为信息保存度,它定义了源图像和融合图像之间的相关性的权重。权重越高,期待的相似度越高。

        w1、w2根据等式一中信息测量的结果g1、g2来进行估计得到。鉴于g1、g2之间的差值是绝对值而不是相对值,跟其自身相比可能差异太大从而不能反映出他们之间的差异,因此为了增强和体现权重的差异,使用一个数C来进行缩放,目的是获得更优的权重分配。故重新定义w1、w2:

softmax()函数的将括号内的值映射为0-1之间的实数,并能保证w1+w2=1.在损失函数中使用w1和w2来控制特定源图像的信息保存度。

3.2 损失函数

        损失函数主要用于保存重要信息和训练用于多个任务的单个模型。其定义由两个部分组成。

        L_{sim}(\theta ,D)是结果图像与源图像之间的相似性损失,L_{ewc}(\theta ,D)是为了持续学习而设计的项目(3.3中介绍)。\lambda是控制权衡的超参数。

        从结构相似性和强度分布两个方面来实现结构性约束,使用SSIM来约束I1、I2、If之间的结构相似性,w1、w2控制信息程度,L_{ssim}(\theta ,D)定义如下,其中S_{x,y}是指两个图像之间的SSIM评估。

        SSIM侧重于对比度和结构的变化,对于强度分布差异的约束较弱。因此使用L_{mse}(\theta ,D)来补充约束:

MSE是两个图像之间的均方误差,同时,约束MSE获得的结果在平均所有可能的输出时存在相对模糊的外观而SSIM可以弥补这个问题,因此两者相互补偿,在控制权衡的情况下,相似性损失可以被定义为:

3.3 基于EWC(弹性权重合并)的多融合任务单一模型

背景:不同的融合任务通常会导致特征提取和/或融合的差异,这直接反映在DenseNet参数的不同值上。它导致训练具有相同架构但不同参数的多个模型。因此想要训练一个具有统一参数的单一模型,能够适用于多个任务,从而提升模型的利用率。

两种方式达成目的:①、联合训练,②、顺序训练

①联合训练

        在训练过程中保存所有的数据,在每一批次中随机的选取来自各个任务的数据进行训练

②顺序训练

        针对不同的任务改变训练数据,在训练过程中之保存当前任务的数据

        选取①就会面临一些问题:存储所有的数据,造成占据存储过大、适用所有的数据进行训练,造成计算难度高以及计算时间长。而②则不存在此类问题,但是②存在一个新的问题:以前的训练数据不可用,学习了新的知识之后,几乎彻底遗忘掉之前习得的能力,这个问题被称为灾难性遗忘

        EWC算法研究目的:解决灾难性遗忘的问题

        L_{ewc}(\theta ,D)定义如下:

        \theta表示当前任务的参数,\theta ^{*}表示前一个任务的参数,对\left ( \theta -\theta ^{*}\right )^{2}进行加权,重要的参数赋给更高的权重,防止遗忘从旧任务中学习到的内容,不太重要的参数可以在很大程度上修改,从新任务中学习,给予一个小的参数即可。其中i表示网络中的第i个参数,\mu _{i}表示对应\left ( \theta -\theta ^{*}\right )^{2}的权重。

        \mu _{i}被指定为Fisher信息矩阵的对角线项,并通过计算前面任务中数据的梯度平方来近似。

        其中D*表示前一个任务的数据。\log p(D^{*}|\theta ^{*})可以近似地由-L(\theta ^{*},D^{*})来表示,因此\mu _{i}有可以表示为:

        假设在丢弃旧数据D*之前可以计算出Fisher信息矩阵,则模型不需要D*来训练当前任务。

        如果之前有多个任务存在,L_{ewc}(\theta ,D)可以根据具体的任务和当前的数据进行调整,如图7所示。然后求\mu _{i}的平均值。图中细线表示只保留一部分数据,这些数据只用来计算权重,不参与DenseNet的训练。

       总体思路:

        在多任务图像融合时,首先训练DenseNet来解决多模态图像融合问题,在这一步中,利用等式6中的定义的相似度损失L_{sim}(\theta ,D)进行。然后,在给其增加 解决多曝光图像融合问题的能力时,要先计算重要性相关权重\mu _{i},然后通过最小化等式3中的L_{ewc}(\theta ,D)对重要参数进行整合,进而避免灾难性遗忘问题。对不重要的参数进行更新,通过最小化相似度损失L_{sim}(\theta ,D)来解决多曝光图像融合问题。最后,在对DenseNet进行多焦点图像融合训练时,根据前两个任务计算\mu _{i}。后续的弹性重量合并策略与之前相同。这样,EWC就可以针对多任务自适应图像融合的场景进行定制。

3.4 网络框架

        

        DenseNet是一个不需要设计融合规则的端到端模型,其网络框架如图8所示。U2Fusion中的DenseNet架构由10层组成,每层都由一个卷积和一个激活函数构成。所有卷积层的核大小设置为3*3,步幅设置为1。在卷积前使用反射填充来减少边界伪影。不使用池化层,避免信息丢失。前9层的激活函数为LeakyReLU,斜率设为0.2,最后一层的激活函数为tanh。

        此外,研究已经证明,如果在靠近输入的层和靠近输出的层之间建立更短的连接,cnn可以显著地加深和有效地训练。因此,在前七层中,使用来自密集连接cnn的密集连接块来改善信息流和性能。在这些层中,以前馈方式在每一层和所有层之间建立了快捷的直接连接,如图8中的连接操作所示。这样,可以减少梯度消失的问题。

        同时,在减少参数数量的同时,可以进一步加强特征传播。特征映射的通道都设置为44。随后的四层对特征图的通道逐渐减少,直至得到单通道融合结果。

3.5 处理RGB输入

        RGB输入首先转换为YCbCr色彩空间。然后,使用Y(亮度)通道进行融合,因为结构细节主要在该通道中,并且该通道的亮度变化比色度通道更为突出。Cb和Cr(色度)通道中的数据传统上融合为:

        C1和C2分别为第一源图像和第二源图像的Cb/Cr通道值。Cf为聚变结果对应的通道。\tau设为128。然后,通过逆变换,将融合后的图像转换到RGB空间。因此,所有的问题都统一为单通道图像融合问题。

3.6 处理多输入

        在多曝光多焦点融合中,我们需要融合一个源图像序列,即有两个以上的源图像可用。在这种情况下,这些源图像可以按顺序融合。

        如图9和图10所示,最初融合两个源图像。然后,将中间结果与另一源图像融合。通过这种方式,理论上U2Fusion能够融合任何数量的输入。

四、实验细节及讨论

        定性定量实验。

4.1 训练细节

        三种融合任务(4.1、4.2、4.3),四个数据集用于训练、两个额外的数据集用于测试。

        ......

4.2 多模态图像融合

4.2.1 可见光和红外图像融合

        将U2Fusion与五种最先进的方法进行了比较:HMSD[42]、GTF[19]、DenseFuse[17]、fusongan[5]和DDcGAN[24]。TNO和RoadScene数据集的定性结果分别如图11和图12所示。经对比可以发现,U2Fusion比其他的方法进行融合得到的效果图更加的清晰,保存了更多的细节。

        此外,U2Fusion还应用于道路场景中VIS (RGB)和灰色IR图像的融合。如图13所示,由于融合过程仅在Y通道上进行,并且颜色信息全部来自VIS图像,因此融合结果更像是通过IR图像增强的VIS图像,以更好地表示场景。

        对TNO和RoadScene(两个训练数据集)中剩余的20对和45对图像进行了定量比较。四个指标,即相关系数(CC)、SSIM、峰值信噪比(PSNR)和差异相关和(SCD)[43]进行评估。CC测量源图像与结果之间的线性相关程度。PSNR评估由融合过程引起的失真。SCD量化融合图像的质量。

        如表1所示,U2Fusion在两个数据集上的CC、SSIM和PSNR均排名第一。虽然它在SCD上排名第二,但也取得了类似的结果。结果表明,U2Fusion在源图像上实现了高保真度,并且失真、噪声或伪影较少。

4.2.2 医学图像融合

        

        U2Fusion与其他四种方法(RPCNN[44]、CNN[16]、PAPCNN[45]和NSCT[6])应用于医学图像融合的效果对比如图14所示。由图14可以看出,U2Fusion的结果颜色信息丢失的更少、结构纹理更加的清晰。

        如表2所示。在CC、SSIM和PSNR上的最佳结果表明,U2Fusion与源图像具有更高的相关性和相似性,并且产生更少的失真/噪声。在SCD上的次优结果表明,U2Fusion在差值和源图像之间实现了相当的相关性。

4.3 过度曝光图片融合

        我们将U2Fusion与GFF[46]、DSIFT[47]、GBM[48]、Deepfuse[7]和FLER[49]进行比较,以解决更具挑战性的问题,即源图像曝光比大,因此包含的信息很少。图15和图16分别报道了[41]数据集和EMPA HDR数据集的定性结果。由于源图像中的曝光设置不适当,场景的表现被削弱,视觉感知差。在我们的结果中,这些表征在适当的暴露下会进一步增强。U2Fusion改进了GFF、DSIFT和FLER的局部暗区。此外,与GBM和Deepfuse相比,我们的结果丰富了更清晰的细节或更高的对比度,以提供更好的细节表示,如红色框所示。

        分别对[41]数据集中的30对和EMPA HDR数据集中的15对图像进行了定量比较。除了SSIM、PSNR和CC之外,还使用了一个额外的度量,边缘强度(EI)来进行评估。
        EI反映了边缘点的梯度幅度。均值和标准差如表3所示。在[41]数据集上,U2Fusion实现了SSIM和PSNR的最优均值。EI和CC的结果分别落后于FusionDN和Deepfuse 0.02和0.011。在EMPA HDR数据集上,我们的SSIM均值是最好的。对于其他指标,U2Fusion实现了0.037、0.064和0.009,它们接近最佳值。结果表明,在U2Fusion中,融合图像与源图像的相似性和相关性更高,失真更小,梯度幅度更大。

 4.4 多焦点图像融合

        我们将我们的方法与DSIFT[50]、GBM[48]、CNN[25]、GFDF[8]和SESF-Fuse[18]进行了比较,定性结果如图17所示。U2Fusion虽然没有使用ground truth进行监督,也没有对融合图像中的焦点区域进行提取和填充,但仍然取得了相当的效果。如第一行所示,在聚焦区域和散焦区域的边界处模糊的边缘被融合在一起。

        在U2Fusion中,这种现象得到了缓解,因为它试图在判断聚焦区域的相对模糊关系后重建聚焦区域。另一个差异在DSIFT、CNN、GFDF和SESF-Fuse的最后两行中显示,在聚焦和散焦区域的边界处。远焦图像中的一些细节会丢失,例如高尔夫球和耳朵边缘。虽然GBM保留了这些细节,但在结果中可以观察到明显的亮度和颜色偏差。相比之下,U2Fusion在更大程度上保留了这些细节。
评估指标包括EI、CC、视觉信息保真度(VIF)[51]和平均梯度(MG)。VIF通过计算源图像与融合结果之间的失真来衡量信息保真度。MG越大,图像包含的梯度越多,融合效果越好。

        如表4所示,U2Fusion在EI和CC上获得了最优的结果,EI上的最佳结果和MG上的次优结果表明我们的结果有更多的梯度,以获得更清晰的外观。结果与图17所示的定性结果一致。此外,在CC上的最佳结果和在VIF上的最佳结果表明,U2Fusion与源图像保持了最高的线性相关性,并获得了相当的信息保真度。

五、消融实验

5.1 EWC的消融实验

        在U2Fusion中,我们使用EWC来训练三个融合任务的单一模型,以克服灾难性遗忘。为了验证其有效性,我们进行了一个比较实验,其中任务在没有EWC的情况下进行顺序训练。从三个方面分析了算法的有效性:1)相似度损失;2)mi的统计分布;3)训练阶段的中间融合结果。

        相似度损失的变化,lsim & u;公式(3)中的DÞ,如图18所示。第一张图是不使用EWC时每个任务的相似度损失,第二张图是使用EWC时的相似度损失。任务1和任务2的损失差异不明显。然而,当在任务3上训练DenseNet而不使用EWC时,任务2的验证数据集上的损失明显增加。这表明当前网络在多曝光图像融合方面的性能在下降。使用EWC时,先前任务的相似度损失与训练时基本相同。因此,通过应用EWC,我们可以获得一个适用于这些任务的单一模型。

        我们还比较了有无EWC时mi的统计分布,如图19所示。Mi是在每个任务训练完成后,通过相似度损失和相应的数据集来计算的。例如,训练任务3后的分布是将任务1的相似度损失和数据集与任务2的相似度损失和数据集计算的mi平均后得到的平均mi的统计分布。在没有EWC的情况下,三个任务后得到的mi的三个分布之间没有太大的差异,如图1所示。参数只与当前任务相关,因为mi只表示参数对当前任务的重要性。
        然而,在EWC中,较大mi的比例显著增加。这种增加表明网络中存在更重要的参数。这些参数不仅对当前任务很重要,而且对以前的任务也很重要。同时,小值所占比例的减少也表明网络的冗余度在降低。越来越多的参数对提高融合性能起着重要的作用。

        图20给出了带/不带EWC的结果的直观定性比较。在任务1和任务2上对模型进行训练后,有EWC和没有EWC的模型在多模态和多曝光图像融合上都取得了满意的效果。多焦点图像融合结果显示边缘模糊,如图20a、20b、20d中任务3的结果所示。然而,通过在任务3上训练模型,结果呈现出更清晰的外观,如图20d和20e中任务3的结果所示。当没有EWC训练模型时,任务2的性能下降,例如整个图像的亮度降低。此外,在图20b和图20c中,任务1的结果也有明显差异。通过EWC,这两个问题得到了缓解,如图20d和20e所示。

5.2 不同任务之间相互促进的统一模型

        在U2Fusion中,我们使用EWC来不断学习新的任务。这样,统一模型就可以融合多种类型的源图像。这样,在参数统一的情况下,U2Fusion从单个任务中学到的信息可以促进其他任务。为了验证,我们为每个任务训练一个单独的模型。因此,不同任务之间不会发生交互。融合结果如图21所示。虽然多模态和多聚焦图像融合不同于多曝光图像融合,但多模态和多聚焦图像也存在过曝光区域,从前三列的可见图像和最后一列的远聚焦图像可以明显看出这一点。使用经过多曝光图像融合训练的统一模型,U2Fusion在这些过度曝光区域表现出比单个模型更清晰的性能。

        另一实例示于多曝光图像融合的结果,即第六列。源图像中的高亮区域类似于多焦点图像。考虑到该模型已经从多焦点图像融合中学习,结果显示比单独训练的模型有更清晰的边缘。因此,U2Fusion通过集合多个任务的优势,不仅对多类型源图像,而且对同一类型源图像中的多类型区域都具有较强的泛化能力。因此,统一的模型可以实现不同融合任务的相互促进

5.3 自适应信息保存度的消融研究

        为了验证自适应信息保存度的有效性,我们将v1和v2直接设置为0.5进行了实验。6个数据集的对比结果如图22所示。第一行为v1和v2固定为0.5时的结果,第二行为U2Fusion的结果。在多模态图像融合中,没有自适应信息保留度的结果在云的边缘、吉普车的纹理、网的细节和结构信息等方面表现出较差的细节表现。在多曝光图像融合中,过曝光区域的差异明显。

        如果没有适应度,这些区域看起来仍然过度曝光,比如花、窗户和太阳。这种现象在多焦点图像融合的结果中最为明显。当v1和v2直接设置为0.5时,网络无法区分聚焦和散焦区域。因此,结果会受到模糊边缘的影响,而U2Fusion会产生更清晰的外观。

5.4 训练效果

        在这三种融合任务中,多焦点图像融合与多模态和多曝光图像融合略有不同。对于多模态、多曝光的图像补丁,融合补丁可以看作是两个源图像的组合。然而,对于多聚焦图像补丁,融合过程可以看作是源图像中聚焦区域的选择。因此,期望融合结果与聚焦区域的源图像具有较高的相似性。因此,我们在本节进行两个对比实验。为了进行定量比较,我们使用相关系数来衡量结果与源图像的相关性,使用平均梯度来衡量融合结果的性能。

        一方面,我们改变了多模态和多曝光图像融合的顺序。训练顺序被重置为多重曝光,多重模式!多焦点图像融合。定性结果如图23所示。定量结果如表5所示。结果表明,多模态和多曝光图像融合训练顺序的交换对多聚焦图像融合影响不大。对于这两个任务,结果显示出更高的亮度和平均梯度。然而,原始训练顺序的结果与源图像保持较高的相关性。

        另一方面,考虑到多焦点图像融合与其他两种融合任务的区别,我们将多焦点图像融合作为第一任务。然后,训练顺序被重置为多焦点!多模式!多曝光图像融合。从图23最右边一栏可以看出,多焦点图像融合的结果明显比其他量级的图像模糊。

        这一现象也反映在表5中显著减小的平均梯度上,从0.0677或0.0700下降到0.0563。U2Fusion的持续学习能力得益于lewc - ðu;DÞ在Eq.(7)中定义。一些不重要的参数被更新以从新的任务中学习,导致之前任务的性能略有下降。由于多焦点图像融合的特殊性,其性能下降更为明显,特别是在形状边缘的模糊上。
        因此,多模态和多曝光图像融合的训练顺序对融合结果的影响不大,而多聚焦图像融合的训练顺序对融合结果的影响相对显著。对比表5的定量结果,多模态多曝光顺序多焦点显示最佳性能。因此,我们在U2Fusion中采用了它。

5.5 U2Fusion和FusionDN的对比

        提出的方法的初步版本是FusionDN[11],其改进在第1节中进行了描述。为了验证这些改进的有效性,我们比较了FusionDN和U2Fusion的结果,如图24所示。

        首先,我们通过修改源图像中信息的数量和质量来改进信息保存度分配策略。这种改进的效果在图24的第一列和第二列中显示。FusionDN依靠原始源图像信息的数量和质量,保留了VIS区域的高对比度,例如烟雾和背景之间的对比度。然而,相应红外区域的大量细节已经丢失。在U2Fusion中,通过考虑提取的丰富特征中的信息,改变信息的保留程度,保留源图像中更多的细节。

        其次,我们通过去除梯度损失和增加MSE损失来修改损失函数。在FusionDN中,为了保留更多的梯度,引入了梯度损失。但是,它会导致一些假边,如第四列和第五列的FusionDN结果。通过去除它,我们依靠SSIM和改进的信息保存度分配策略来保存结构信息。结果仍然显示尖锐的外观和减轻假边。此外,由于仅使用SSIM来保留强度分布,因此结果的亮度分量与源图像有轻微偏差,如上一列的FusionDN结果所示。在U2Fusion中,为了克服亮度偏差,我们加入了MSE损耗。与上一列一样,U2Fusion的强度与源图像更接近。

        最后,将第一个融合任务由VIS-IR图像融合改为多模态图像融合。在这项任务中,VIS-IR和PET-MRI图像融合。由于FusionDN中的模型没有在医疗数据集上进行训练,所以结果似乎不令人满意,边缘较弱,背景灰色,如第三列所示。

六、结论

        在这项研究中,我们提出了一种新的统一和无监督的端到端图像融合网络,称为U2Fusion,以解决多种融合问题。首先,获得自适应信息保存度作为源图像中信息量的度量。从而在一个统一的框架下解决不同的任务。特别是,自适应程度允许网络进行训练,以保持融合结果与源图像之间的自适应相似性。因此,不需要基础真理。此外,我们还解决了灾难性遗忘问题以及存储和计算问题,以训练一个适用于多个问题的单一模型。该模型能够解决多模态、多曝光和多焦点图像融合问题,并获得高质量的结果。定性和定量结果验证了U2Fusion的有效性和通用性。此外,我们在FLIR视频的基础上发布了一个新的红外和可见光图像对齐数据集RoadScene,为图像融合基准评估提供了新的选择。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值