多源图像融合——U2Fusion

U2Fusion是为解决多模态、多曝光和多焦点图像融合问题提出的一种新颖的端到端网络。它通过特征提取和信息测量自适应地估计源图像的重要性,并在统一框架下处理不同融合任务,避免了单独训练模型的局限性。该方法通过限制融合图像与源图像的相似性实现无监督融合,并在多个数据集上展示了其有效性和普适性。
摘要由CSDN通过智能技术生成

摘要

这项研究提出了一种新颖的统一的无监督端到端图像融合网络,称为 U2Fusion,能够解决不同的融合问题,包括多模态、多曝光和多焦点情况。利用特征提取和信息测量,U2Fusion 自动估计相应源图像的重要性,并提出自适应的信息保留度。因此,不同的融合任务在同一框架中统一处理。基于自适应度量,训练一个网络以保持融合结果与源图像之间的自适应相似性。因此,通过避免在顺序地为不同任务训练单个模型时丢失先前融合能力,我们获得了一个适用于多个融合任务的统一模型。此外,发布了一个新的红外和可见图像对齐的数据集 RoadScene(可在 https://github.com/hanna-xu/RoadScene 获取),为基准评估提供了一个新选项。对三种典型图像融合任务的定性和定量实验结果验证了 U2Fusion 的有效性和普适性。我们的代码公开可用于 https://github.com/hanna-xu/U2Fusion

介绍

图像融合具有广泛的应用,涵盖从安全到工业和民用领域的各个方面。由于硬件设备或光学成像的限制,使用一种类型的传感器或一个单一的拍摄设置拍摄的图像仅能捕获部分信息。例如,反射光照信息,其亮度处于有限范围内并在预定义的景深内,是不完整信息的典型表现。图像融合的目标是通过整合来自多个使用不同传感器或光学设置拍摄的源图像的互补信息来生成合成图像图1展示了不同图像融合任务的示意图。具有优越的场景表示和更好的视觉感知的单一融合图像适用于后续的视觉任务,例如视频监控、场景理解和目标识别等。
在这里插入图片描述
图 1. 不同图像融合任务示意图(第一行:源图像,第二行(从左到右):FusionGAN [5]、U2Fusion、NSCT [6]、U2Fusion、Deepfuse [7]、U2Fusion 的融合结果、GFDF [8] 和 U2Fusion)。

通常,图像融合操作在多模态、多曝光或多焦点图像上。为解决这些问题,已经开发了大量算法。它们可以大致分为两类:基于传统融合框架的算法基于端到端模型的算法。尽管这些算法在各自的融合任务中取得了有希望的结果,但仍然存在一些问题待解决。比如:在基于传统融合框架的方法中,有限的融合规则选择和手动设计的复杂性限制了性能的提升。在端到端模型中,融合问题通过依赖于用于监督学习的地面真实数据或用于无监督学习的特定设计指标来解决。在某些任务中,可能存在一些已知的地面真实数据或无参考度量,用于评估算法的性能。但是,当涉及到多个任务时,这些地面真实数据或无参考度量可能会因任务的特性而有所不同。这些问题构成了模型统一和监督或无监督学习应用的主要障碍。
同时,不同的融合任务通常具有相似的目标,即通过集成来自多个源图像的重要且互补的信息来合成图像。然而,在不同的任务中,由于源图像的类型不同,需要集成的重要信息差异很大(参见第3.1节的详细解释),从而限制了大多数方法对特定任务的有效性。但是,神经网络具有强大的特征表示能力,可以将各种不同的信息进行统一的表示。它有可能产生一个统一的融合框架,本研究将对此进行探索。
此外,通过在统一模型中解决不同的融合问题,这些任务可以相互促进。例如,假设统一模型已经针对多重曝光图像融合进行了训练,它能够提高多模态或多焦点图像中曝光不足/曝光过度区域的融合性能。通过聚集多个任务的优势,统一模型可以为每个单一融合任务取得更好的结果,并且比多个单独训练的模型具有更强的泛化能力。

为了解决这些问题,我们提出了一种统一的无监督图像融合网络,称为 U2Fusion。为了信息保留,首先采用特征提取器从源图像中提取丰富而全面的特征。然后,通过衡量特征中信息的丰富程度来定义这些特征的相对重要性,这表明了源图像与融合结果之间的相似关系。更高的相似性意味着在结果中保留了更多的源图像信息,从而导致更高的信息保留度。基于这些策略,训练了一个 DenseNet 模块来生成融合结果,而无需地面真实数据。我们工作的特点和贡献总结如下:

1.我们提出了一个统一的框架,可以处理各种图像融合任务。简单来说,我们用同一个模型和参数来解决不同的融合问题。我们的方法解决了一些问题,比如为不同问题单独设计解决方案、训练过程中的存储和计算问题,以及连续学习中的重要问题。

2.我们开发了一个新的无监督网络,用于图像融合,通过限制融合图像与源图像之间的相似性来克服大多数图像融合问题中的障碍,这些问题通常是缺乏通用的地面真实数据和无参考度量。

3.我们发布了一个名为 RoadScene 的新的红外和可见图像对齐数据集,为图像融合性能评估提供了一个新的选择。你可以在 https://github.com/hanna-xu/RoadScene 获取到这个数据集。

4.我们在六个数据集上测试了我们提出的方法,这些数据集包含了多种不同的情况,比如多模态、多曝光和多焦点的图像融合。我们通过定性和定量的结果验证了 U2Fusion 方法的有效性和适用性。

本文的初步版本已经发表在 [11] 中。新的贡献主要体现在四个方面。
1,信息保留度分配策略得到了改进。不再仅仅考虑原始源图像中信息的数量和质量,而是通过对提取的特征进行信息测量来分配信息保留度。通过考虑额外因素,修改后的策略提供了一个更全面的测量方法,以捕捉源图像的基本特征。
2,损失函数被修改。去除梯度损失有助于减少虚假边缘,并且增加的基于像素强度的损失有助于降低融合图像中的亮度偏差。
3,我们将第一个任务从可见光(VIS)和红外线(IR)图像融合替换为多模态图像融合,其中包括了VIS-IR和医学图像融合。
4,我们在额外的公开数据集上验证了 U2Fusion 的有效性。对于消融研究,为了验证弹性权重一致性(EWC)在从新任务中进行连续学习中的有效性 [12],我们从两个额外的方面分析了EWC,即EWC的权重的统计分布和训练阶段所有任务的中间结果。至于自适应信息保留度,也对其有效性进行了验证。

2 相关工作

2.1 图像融合方法

2.1.1 基于传统融合框架的方法

传统的融合框架可以大致总结如图2所示。由于重建通常是提取的逆过程,这些算法的关键在于两个重要因素:特征提取和特征融合。通过修改它们,这些方法可以被设计用于解决多模态、多曝光或多焦点图像融合问题。

"重建通常是提取的逆过程"这句话的意思是,当我们从原始数据中提取特征时,我们实际上是在从原始数据中提取出有用的信息或特征。而当我们进行重建时,我们试图根据这些提取的特征来重新构建原始数据。因此,重建可以被看作是提取的逆向过程,因为它尝试根据提取的特征来恢复原始数据的形态或内容。

为了解决特征提取问题,人们提出了大量的传统方法。其所依据的理论可分为四大类:
i) 多尺度变换,如拉普拉斯金字塔(LP)、比率低通金字塔(RP)、梯度金字塔(GP)、离散小波(DWT) )、离散余弦(DCT)[13]、曲线波变换(CVT)、剪切波等;
ii)稀疏表示[14]
iii)子空间分析,例如独立成分分析(ICA)、主成分分析(PCA)、非负矩阵分解(NMF)等;
iv) 混合方法。然而,这些手动设计的提取方法使得融合方法变得越来越复杂,从而加剧了设计融合规则的难度。需要对提取方法进行相应修改以解决不同的融合任务。此外,还需要注意提取方法的适当性,以确保特征的完整性。为了克服这些限制,一些方法在特征提取中引入卷积神经网络(CNN),或者作为一些子部分[15]、[16],或者作为整个部分
然后,根据提取的特征确定融合规则。常用的规则包括最大值、最小值、加法、l1范数等。即使在一些基于卷积神经网络(CNN)的方法中,由于融合规则是手动设计的且选择有限,这些规则仍然限制了性能的提高。
在这里插入图片描述
图 2. 传统图像融合框架。

值得注意的是,有一些方法跳出了传统框架,例如基于梯度传递和总变差最小化的可见光(VIS)和红外(IR)图像融合方法 [19],通过优化结构相似性指数的多曝光图像融合方法 [20],以及基于密集SIFT的多焦点图像融合方法 [21] 等。然而,这些方法所依赖的算法或度量标准通常专门针对特定的融合任务,并不一定具有良好的泛化性能。

2.1.2 端到端的模型

为了避免设计融合规则,人们提出了许多基于深度学习的算法。与 Sec 中的方法不同。 2.1.1,这些方法通常是针对特定融合任务量身定制的端到端模型。

多模态图像融合。多模态图像融合的端到端模型通常是为可见光和红外图像融合而设计的。马等人。提出了 FusionGAN [5],通过在生成器和鉴别器之间建立对抗游戏来保留 IR 图像中的像素强度分布和 VIS 图像中的细节。后来,其变体[22]被提出通过引入目标增强损失来锐化热目标的边缘。 DDcGAN [23]、[24] 通过引入双鉴别器架构来增强热目标的突出度。然而,可见光和红外图像融合的独特问题是像素强度分布和细节的保留,这不适用于其他融合任务。此外,此类任务中通常不存在基本事实。因此,这是在多模态图像融合中利用监督学习的主要障碍。

多重曝光图像融合。为了解决这个问题,一些无监督方法被提出。普拉巴卡尔等人。提出了 Deepfuse [7],其中采用无参考度量 MEF-SSIM 作为损失函数。然而,MEFSSIM 是专门为多重曝光图像而设计的,它丢弃了亮度分量,因为它在这个问题中并不重要。尽管如此,它在其他任务中仍然发挥着重要作用。因此,MEF-SSIM不适用于其他问题。在一些多重曝光数据集中,没有监督学习的基本事实。

多焦点图像融合。针对这个问题,Liu等人提出了一个网络来生成焦点地图[25]。预定义的标签,用于指示它们是高质量图像还是高斯模糊图像,用于监督学习。然后,它被扩展到一个通用的图像融合框架[26]。根据泛化性,训练在多焦点图像融合上的模型可以用来解决其他任务。此外,Guo等人提出了FuseGAN[27],其中生成器直接生成二进制焦点蒙版,鉴别器试图区分由归一化的圆盘点扩散函数合成的地面真实蒙版,从背景和前景分离。焦点地图/蒙版在多焦点图像融合中非常重要,而在其他任务中它们不是必要的甚至不适用。所有这些方法都基于监督学习。
我们的方法。考虑到上述局限性,我们提出了一种统一的无监督图像融合网络,其具有以下特点。
i)它是一个端到端的模型,不受人工设计融合规则的限制。
ii)它是各种融合任务的统一模型,而不是特定的目标,例如独特的问题、度量的特殊性、二进制掩码的需要等。
iii)它是一个无监督模型,不需要地面真实数据。
iv)通过不断学习解决新任务而不丢失旧能力,它以统一的参数解决多个任务。

2.2 持续学习

在持续学习环境中,学习被视为要学习的一系列任务。在训练阶段,权重会适应新任务,而不会忘记之前学到的任务。为了避免存储来自先前学习任务的任何训练数据,提出了许多基于弹性权重合并(EWC)的算法[28]、[29],其中包括一个正则化项,以强制参数保持接近为先前任务训练的参数。这些技术已广泛应用于许多实际问题,例如行人重新识别[30]、实时车辆检测[31]和情感识别[32]等。在本研究中,我们进行持续学习来解决多个融合任务

3. 方法

我们的系统允许使用不同的传感器和/或同一相机位置的拍摄设置捕获信号。在本节中,我们提供问题表述、损失函数的设计、弹性权重合并技术和网络架构。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码魔法师!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值