【论文阅读】U2Fusion: A Unified Unsupervised Image Fusion Network

本文介绍了一种名为U2Fusion的无监督端到端图像融合网络,通过自适应信息保留度解决多模态、多曝光和多焦点融合任务。该方法避免了传统融合框架的限制,无需监督学习,适用于多种图像融合场景并有效解决遗忘问题。
摘要由CSDN通过智能技术生成

链接:U2Fusion: A Unified Unsupervised Image Fusion Network | IEEE Journals & Magazine | IEEE Xplore

代码:GitHub - hanna-xu/U2Fusion: Code of U2Fusion: a unified unsupervised image fusion network for multiple image fusion tasks, including multi-modal, multi-exposure and multi-focus image fusion.​​​​​​

U2Fusion: A Unified Unsupervised Image Fusion Network

1.Introduction

研究背景:

- 图像融合在安全、工业和民用领域有着广泛应用。

- 由于硬件设备或光学成像的限制,使用一种类型的传感器或单一拍摄设置拍摄的图像只能捕获部分信息。

- 图像融合的目标是通过整合来自不同传感器或光学设置拍摄的几幅源图像的互补信息来生成综合图像。

现有方法存在问题:

- 传统框架限制在融合规则方面的选择,复杂的手动设计降低了性能提升的可能性。

- 端到端模型中,融合问题解决依赖于监督学习的ground truth或无监督学习的特定设计指标,缺乏普遍的ground truth或无参考度量标准。

研究方法:

- 提出了一种名为U2Fusion的统一无监督图像融合网络。

- 首先采用特征提取器从源图像中提取丰富和全面的特征。

- 测量特征中信息的丰富程度,定义了这些特征的相对重要性。

- 基于这些策略,训练DenseNet模块生成融合结果,无需ground truth。

创新:

- 通过修改信息保存度分配策略和改进损失函数等方面,提出了对信息保存度较好的策略。

- 将第一个任务从可见光和红外图像融合改为包括可见光-红外和医学图像融合的多模态图像融合。

- 在额外的公开数据集上验证了U2Fusion的有效性,并进行弹性权重合并(EWC)的消融研究。

应用前景:

- U2Fusion提供了一个统一的框架来解决各种图像融合任务,统一模型和统一参数。

- 解决了不同问题需要分开解决、存储和计算问题以及持续学习中的灾难性遗忘等缺点。

- 在多模式、多曝光和多焦点图像融合的六个数据集上进行测试,验证了U2Fusion的有效性和普适性。

2 RELATED WORK

2.1 Image Fusion Methods

2.1.1 Methods Based on Traditional Fusion Framework

1. 传统融合框架包括特征提取和特征融合两个关键因素,通过修改这两个因素可以设计用于解决多模态、多曝光或多焦点图像融合的方法。

2. 传统方法的特征提取理论基础包括多尺度变换、稀疏表示、子空间分析和混合方法四类,手动设计的特征提取方法增加了融合方法的复杂性,加大了设计融合规则的难度。

3. 为克服这些限制,一些方法引入了卷积神经网络(CNN)进行特征提取,然后基于提取的特征确定融合规则,常用规则包括最大值、最小值、加法和l1-norm等,但手动设计的融合规则选择的限制阻碍了性能改进的进一步提升。

4.值得注意的是,有一些方法脱离了框架,例如基于梯度转移和总变差最小化的可见光-红外图像融合方法[19]、通过优化结构相似性指数的多曝光图像融合方法[20] ,以及基于密集SIFT进行多焦点图像融合的方法[21]等。然而,这些方法所基于的算法或度量专用于特定的融合任务,可能不能很好地泛化。

2.1.2 End-to-end Models

为了避免设计融合规则,人们提出了许多基于深度学习的算法。这些方法通常是针对特定融合任务量身定制的端到端模型。

多模态图像融合

多模态图像融合的端到端模型通常是为可见光和红外图像融合而设计的。FusionGAN [5],通过在生成器和鉴别器之间建立对抗游戏来保留 IR 图像中的像素强度分布和 VIS 图像中的细节。后来,其变体[22]被提出通过引入目标增强损失来锐化热目标的边缘。 DDcGAN [23]、[24] 通过引入双鉴别器架构来增强热目标的突出度。然而,可见光和红外图像融合的独特问题是像素强度分布和细节的保留,这不适用于其他融合任务。此外,此类任务中通常不存在ground truth。因此,这是在多模态图像融合中利用监督学习的主要障碍。

多重曝光图像融合

为了解决这个问题,一些无监督方法被提出。Prabhakar et al. 提出了 Deepfuse [7],其中采用无参考度量 MEF-SSIM 作为损失函数。然而,MEFSSIM 是专门为多重曝光图像而设计的,它丢弃了亮度分量,因为它在这个问题中并不重要。尽管如此,它在其他任务中仍然发挥着重要作用。因此,MEF-SSIM不适用于其他问题。在一些多重曝光数据集中,没有ground truth可以进行监督学习。

多焦点图像融合

对于这个问题,Liu et al提出一个网络来生成焦点图[25]。预定义的标签指示它们是高质量图像还是高斯模糊图像,用于监督学习。然后,它被扩展到通用图像融合框架[26]。根据泛化的情况,在多焦点图像融合上训练的模型可以用于解决其他任务。此外,郭等人提出了 FuseGAN [27],其中生成器直接生成二进制焦点掩模,鉴别器尝试将生成的掩模与ground truth区分开来,ground truth是通过利用归一化磁盘点扩散函数并分离背景和前景合成的。焦点图/掩模对于多焦点图像融合很重要,但它们在其他任务中不是必需的,甚至不适用。所有这些方法都是基于监督学习。

Our method

考虑到上述局限性,我们提出了一种统一的无监督图像融合网络,其具有以下特点。 i)它是一个端到端的模型,不受人工设计融合规则的限制。 ii)它是各种融合任务的统一模型,而不是特定的目标,例如独特的问题、度量的特殊性、二进制掩码的需要等。 iii)它是一个无监督模型,不需要ground truth。 iv)通过不断学习解决新任务而不丢失旧能力,它以统一的参数解决多个任务。

2.2 Continual Learning

在持续学习环境中,学习被视为要学习的一系列任务。在训练阶段,权重会适应新任务,而不会忘记之前学到的任务。为了避免存储来自先前学习任务的任何训练数据,提出了许多基于弹性权重合并(EWC)的算法[28]、[29],其中包括一个正则化项,以强制参数保持接近为先前任务训练的参数。这些技术已广泛应用于许多实际问题,例如行人重新识别[30]、实时车辆检测[31]和情感识别[32]等。在本研究中,我们进行持续学习来解决多个融合任务。

  1. 问题阐述:本模型的主要目标是在图像融合中保留源图像中的关键信息,基于测量来确定这些信息的丰富性。关键问题是要探索一种统一的度量方法,以确定源图像的信息保留程度,并与源图像保持适应性相似性。

  2. 方法关键特点:与监督学习中最大化融合结果与真实数据的相似性不同,该方法依赖于信息保留程度,以保持与源图像的自适应相似性。作为一种无监督模型,适用于多种图像融合问题,真实数据很难获得。通过综合考虑源图像的多方面属性,提取浅层和深层特征来估计信息度量。

  3. 特征提取和信息度量实现:采用预训练的VGG-16网络进行特征提取,通过卷积层输出的特征图用于后续的信息度量。进一步处理产生最终的信息保留度量,无需真实数据,只需在训练阶段测量和应用。最终,优化DenseNet模块以最小化损失函数。在测试阶段,无需测量信息保留度量,因为DenseNet已经被优化。

3 METHODOLOGY

3.1 Problem Formulation

1. 问题阐述:本模型的主要目标是在图像融合中保留源图像中的关键信息,基于测量来确定这些信息的丰富性。关键问题是要探索一种统一的度量方法,以确定源图像的信息保留程度,并与源图像保持适应性相似性。

2. 方法关键特点:与监督学习中最大化融合结果与真实数据的相似性不同,该方法依赖于信息保留程度,以保持与源图像的自适应相似性。作为一种无监督模型,适用于多种图像融合问题,真实数据很难获得。通过综合考虑源图像的多方面属性,提取浅层和深层特征来估计信息度量。

3. 特征提取和信息度量实现:采用预训练的VGG-16网络进行特征提取,通过卷积层输出的特征图用于后续的信息度量。进一步处理产生最终的信息保留度量,无需真实数据,只需在训练阶段测量和应用。最终,优化DenseNet模块以最小化损失函数。在测试阶段,无需测量信息保留度量,因为DenseNet已经被优化。

3.1.1 Feature Extraction

与融合任务中训练的模型相比,其他计算机视觉任务的模型通常使用更大、更多样化的数据集进行训练。因此,此类模型提取的特征丰富且全面[33],[34]。受感知损失[35]、[36]的启发,我们采用预训练的VGG-16网络[37]进行特征提取,如图4所示。

输入I已统一在我们模型中的单个通道中(我们将将在第 3.5 节讨论这种转变),我们将其复制到三个通道中,然后将它们喂入 VGG-16。最大池化层之前的卷积层的输出是用于后续信息测量的特征图,为φC1(I)、····、φC5(I),其形状如图四所示。

为了直观分析,多重曝光图像对的一些特征图如图 5 所示。

在原始源图像中,曝光过度的图像比曝光不足的图像包含更多的纹理细节或更大的梯度,因为后者的亮度要低得多。在图5中,φC1(I)和φC2(I)中的特征基于浅层特征,例如纹理和形状细节。在这些层中,曝光过度图像的特征图仍然比曝光不足的图像显示更多信息。相比之下,较高层的特征图,例如 φC4 (I) 和 φC5 (I),主要保留深层特征,例如内容或空间结构。在这些层中,曝光不足图像的特征图中存在可比较的附加信息。因此,浅层和深层特征的结合形成了对可能不存在的本质信息的综合表示。

3.1.2 Information Measurement

为了测量提取的特征图中包含的信息,使用它们的梯度进行评估。与一般信息论派生的实体相比,图像梯度是一种基于具有小感受野的局部空间结构的度量。当在深度学习框架中使用时,梯度在计算和存储方面都更加高效。因此,它们更适合应用于CNN中进行信息测量。信息测量定义如下:

其中 φCj (I) 是图 4 中第 j 个最大池层之前的卷积层的特征图。 k 表示 Dj 通道中第 k 个通道中的特征图。 ‖ · ‖F 表示弗罗贝尼乌斯范数,∇ 是拉普拉斯算子。

3.1.3 Information Preservation Degree

为了保留源图像中的信息,分配两个自适应权重作为信息保留度,定义融合图像与源图像之间的相似度权重。权重越高,期望的相似度越高,对应的源图像的信息保存程度就越高。

这些自适应权重分别表示为 ω1 和 ω2,是根据式(1)获得的信息测量结果 gI1 和 gI2 来估计的。 (1).由于gI1​​和gI2之间的差异是绝对值而不是相对值,因此与它们本身相比可能太小而无法反映它们的差异。因此,为了增强和体现权重的差异,使用预定义的正常数 c 来缩放值以获得更好的权重分配。因此,ω1 和 ω2 定义为:

其中,我们使用softmax函数将gI1/c 、gI2/c映射为0到1之间的实数,并保证ω1和ω2之和为1。然后,在损失函数中使用ω1和ω2来控制信特定源图像的息保存程度。

3.2 Loss Function

损失函数主要是为了保存重要信息和训练适用于多个任务的单个模型而设计的。它由两部分组成,定义如下:

其中θ表示DenseNet中的参数,D是训练数据集。 Lsim(θ,D)是结果和源图像之间的相似度损失。 Lewc(θ, D) 是为持续学习而设计的项目,如下一小节所述。 λ 是控制权衡的超参数。

我们从结构相似性和强度分布两个方面实现相似性约束。鉴于结构相似性指数度量(SSIM)是最广泛使用的度量,它根据光信息的相似性对失真进行建模,反之,结构[38],我们用它来约束 I1、I2 和 If 之间的结构相似性。因此,用 ω1 和 ω2 来控制信息度,Lsim(θ,D)第一项可表示为:

其中Sx,y表示两幅图像之间的SSIM值。

虽然SSIM关注的是对比度和结构的变化,但它对强度分布差异的约束较弱。我们用第二项补充 Lssim(θ, D),它由两幅图像之间的均方误差 (MSE) 定义:

同时,通过对所有可能的输出进行平均,通过约束 MSE 获得的结果会出现相对模糊的外观,而 SSIM 可以弥补这个问题。因此,这两项是相互补偿的。当 α 控制权衡时,Lsim(θ, D) 的公式为:

3.3 Single Model for Multi-fusion Tasks with Elastic Weight Consolidation (EWC)

不同的融合任务通常会导致特征提取和/或融合的差异,这直接反映在 DenseNet 参数的不同值上。它导致训练具有相同架构但不同参数的多个模型。然而,由于一些参数是冗余的,这些模型的利用率可以大大提高。它激励我们训练具有统一参数的单一模型,集成这些模型,从而适用于多个任务。

这个目的可以通过两种方式来实现,即联合训练和顺序训练,如图6所示。联合训练是一种简单的方法,在整个训练过程中保留所有训练数据。在每个批次中,随机选择来自多个任务的数据进行训练。然而,随着任务数量的增加,两个紧迫的问题变得难以解决:i)始终保留先前任务的数据所带来的存储问题和ii)使用所有数据进行训练所带来的计算问题,无论是计算难度和时间成本。

在顺序训练中,我们需要针对不同的任务改变训练数据,如图6(b)所示。这样,训练过程中只需要存储当前任务的数据,解决了存储和计算问题。然而,当我们在另一项任务上训练模型以获得新功能时,就会出现一个新问题:之前的训练数据不可用[39]。随着训练过程继续,参数被优化以解决新问题,同时失去从以前的任务中学到的能力。这个问题被称为灾难性遗忘。为了避免这个缺点,我们应用弹性权重合并(EWC)算法[12]来防范它。

在EWC中,当前任务θ和先前任务θ*的参数值之间的平方距离根据它们对θ*的重要性进行加权。这些重要的参数被赋予更高的权重,以防止忘记从旧任务中学到的东西,而不太重要的参数可以更大程度地修改,以从新任务中学习。通过这种方式,模型能够通过弹性权重巩固进行持续学习。因此,持续学习的损失称为 Lewc(θ, D),包含在等式(3)的总损失函数中。将这些与重要性相关的权重定义为 μi,Lewc(θ, D) 的公式为:

其中i表示网络中的第i个参数,μi表示相应平方距离的权重。

为了评估重要性,μi 被指定为 Fisher 信息矩阵的对角项,并通过使用先前任务中的数据计算梯度平方来近似,如下定义:

其中D*表示先前任务的数据。 log p(D*|θ*) 可以近似替换为 −L(θ*, D*) [12]。因此,等式。 (8) 换算为:

鉴于可以在丢弃旧数据 D* 之前计算 Fisher 信息矩阵,因此模型不需要 D* 来训练当前任务。

如果存在多个先前任务,则根据具体任务和相应数据调整Lewc(θ,D)。然后,对这些梯度的平方进行平均,得到最终的 μi。训练过程和数据流如图7所示。

在多任务图像融合中,θ是DenseNet的参数。首先,训练 DenseNet 来解决任务 1,即通过最小化等式 (6)中定义的相似性损失来解决多模态图像融合问题。当添加解决任务2的能力时,对于多重曝光图像融合问题,首先计算与重要性相关的权重μi。特别地,μi表示DenseNet中每个参数对于多模态图像融合的重要性。然后,通过最小化等式(3)

中的 Lewc 项来合并重要参数,以避免灾难性遗忘。而对意义不大的参数进行更新,通过相应地最小化相似度损失Lsim来解决多曝光图像融合问题。最后,当我们训练 DenseNet 进行多焦点图像融合时,μi 是根据前两个任务计算的。后续的弹性权重盘整策略与之前相同。这样,EWC就可以针对多任务自适应图像融合的场景进行定制。

3.4 Network Architecture

在我们的方法中,采用DenseNet来生成融合结果If,其输入是I1和I2的串联。因此,它是一个端到端模型,不需要设计融合规则。如图 8 所示,U2Fusion 中的 DenseNet 架构由 10 层组成,每层都有一个卷积,后面跟着一个激活函数。所有卷积层的内核大小设置为 3 × 3,步长设置为 1。在卷积之前采用反射填充以减少边界伪影。没有使用池化层来避免信息丢失。前九层的激活函数为LeakyReLU,斜率设置为0.2,最后一层的激活函数为tanh。

此外,研究证明,如果在靠近输入的层和靠近输出的层之间建立较短的连接,CNN 可以显着加深并有效地进行训练。因此,在前七层中,采用来自密集连接 CNN [10] 的密集连接块来改善信息流和性能。在这些层中,以前馈方式在每层和所有层之间建立快捷直接连接,如图8中的串联操作所示。这样,可以减少梯度消失的问题。同时,在减少参数数量的同时,可以进一步加强特征传播[40]。特征图的通道均设置为44。后续四层逐渐减少特征图的通道,直到达到单通道融合结果,如图8所示。

6.Conclusion

1. 本研究提出了一种新颖的统一且无监督的端到端图像融合网络,称为U2Fusion,用于解决多种融合问题。该网络通过获取自适应信息保留程度作为衡量源图像中包含信息量的指标,从而在统一框架下解决不同任务。特别是,自适应度使得网络能够训练以保留融合结果与源图像之间的自适应相似性,因此不需要准确的地面真实数据。此外,作者还解决了遗忘问题以及存储和计算问题,从而训练单个模型适用于多个问题。

2. 单个模型能够高质量解决多模态、多曝光和多焦点图像融合问题。通过定量和定性结果验证了U2Fusion的有效性和普适性。

3. 作者还发布了一份新的对齐的红外和可见光图像数据集RoadScene,基于FLIR视频,为图像融合基准评估提供了新的选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值