【论文翻译】Image fusion meets deep learning: A survey and perspective


Image fusion meets deep learning: A survey and perspective——图像融合遇见深度学习:综述与展望


摘要

图像融合是指从不同源图像中提取并组合最有意义的信息,旨在生成一幅对后续应用更具信息性和益处的单一图像。深度学习的发展促进了图像融合的巨大进步,神经网络强大的特征提取和重建能力使融合结果充满前景。最近,一些最新的深度学习技术使图像融合得到了爆发式的发展,例如生成对抗网络、自编码器等。然而,不同融合场景中最新深度学习方法的综合回顾和分析仍然缺乏。为此,在本综述中,我们首先介绍了图像融合的概念,并从所采用的深度架构和融合场景的角度对方法进行分类。然后,我们回顾了深度学习在各种图像融合场景中的最新应用,包括数字摄影图像融合、多模态图像融合和锐化融合。随后,我们对一些具体融合任务中的代表性方法进行了定性和定量的评估。此外,我们简要介绍了图像融合的几种典型应用,包括摄影可视化、RGBT目标跟踪、医疗诊断和遥感监测。最后,我们提供了结论,强调了图像融合中的挑战,并展望了未来潜在的研究方向。


1. 引言

由于硬件设备的理论和技术限制,由单个传感器或在单一拍摄设置下捕获的图像无法有效和全面地描述成像场景【1】。自然地,图像融合能够将不同源图像中的有意义信息结合在一起,生成一幅包含更多信息且对后续应用更有益的单一图像【2】。由于融合图像的优良特性,图像融合作为一种图像增强方法已广泛应用于许多领域,如摄影可视化【3】、目标跟踪【4】、医疗诊断【5】和遥感监测【6】。

在深度学习普及之前,图像融合已经得到了广泛研究。早期实现图像融合的方法采用相关的数学变换,在空间域或变换域中手动分析活动水平并设计融合规则,被称为传统融合方法【7-10】。典型的传统融合方法包括基于多尺度变换的方法【11】、基于稀疏表示的方法【12】、基于子空间的方法【13】、基于显著性的方法【14】、基于全变分的方法【15】等。然而,这些方法的局限性变得越来越明显。一方面,为了确保后续特征融合的可行性,传统方法被迫对不同源图像采用相同的变换来提取特征。然而,这种操作并未考虑源图像的特征差异,可能导致提取特征的表现力较差。另一方面,传统特征融合策略过于粗糙,融合性能非常有限。

将深度学习引入图像融合的动机是为了克服传统方法的这些限制【1,16,17】。首先,基于深度学习的方法可以使用不同的网络分支来实现差异化特征提取,从而获得更具针对性的特征。其次,基于深度学习的方法可以在精心设计的损失函数指导下学习更合理的特征融合策略,从而实现自适应特征融合。得益于这些优势,深度学习在图像融合中取得了巨大的进步,性能远远超过了传统方法。

从实现图像融合的角度来看,现有的基于深度学习的融合方法致力于解决图像融合中的三个子问题中的一些或全部,即特征提取、特征融合和图像重建。根据采用的深度架构,这些基于深度学习的融合策略可以分为基于自编码器(AE)、常规卷积神经网络(CNN)和生成对抗网络(GAN)的方法。

1. 基于自编码器(AE)的方法:这些方法通常预先训练一个自编码器。然后,使用训练好的自编码器来实现特征提取和图像重建,而中间的特征融合则根据常规融合规则来实现【18】,如图1(a)所示。例如,DenseFuse【19】是最著名的AE方法之一,它在MS-COCO【20】数据集上训练编码器和解码器,并采用加法和 L 1 L_1 L1-范数融合策略。

2. 基于卷积神经网络(CNN)的方法:这些方法通常以两种不同的形式引入卷积神经网络到图像融合中。一种是通过使用精心设计的损失函数和网络结构来端到端地实现特征提取、特征融合和图像重建【21】,如图1(b)所示。代表性的端到端CNN方法是PMGI【16】,它提出了梯度和强度的比例维护损失来引导网络直接生成融合图像。另一种形式是采用训练好的CNN来制定融合规则,而特征提取和图像重建则使用传统方法来完成【22】,如图1©所示。例如,Liu等人【23】采用CNN生成融合权重,而图像分解和重建则通过拉普拉斯金字塔来实现。

3. 基于生成对抗网络(GAN)的方法:这些方法依赖于生成器和判别器之间的对抗游戏来估计目标的概率分布,以隐式方式共同实现特征提取、特征融合和图像重建【24,25】,如图1(d)所示。FusionGAN是GAN图像融合的开创者,它在融合图像和可见图像之间建立对抗游戏,以进一步丰富融合图像的纹理细节。

由于各种图像融合任务之间存在显著差异,这些方法在不同融合场景中的实现方式也有所不同。因此,有必要根据图像融合任务的类别来回顾基于深度学习的融合方法。
图1

图 1. 不同的图像融合深度架构。
( a ) 基于AE的架构;( b ) 和 ( c ) 基于CNN的架构;( d ) 基于GAN的架构。

通常,根据融合目标和源图像成像的差异,图像融合场景可以分为三类,如图2所示。

1. 数字摄影图像融合:由于数字成像设备的性能限制,传感器无法在单一设置下完全表征成像场景中的信息。例如,数字摄影产生的图像只能承受有限的光照变化,并且具有预定义的景深。在这种情况下,作为典型的数字摄影图像融合任务,多曝光图像融合和多焦点图像融合可以合并在不同设置下拍摄的图像,生成具有高动态范围和全清晰度的结果。

2. 多模态图像融合:由于成像原理的限制,单个传感器只能捕捉场景信息的一部分。多模态图像融合结合了多个传感器获取的图像中的最重要信息,以实现对场景的有效描述。典型的多模态图像融合任务包括红外与可见光图像融合和医学图像融合。

3. 锐化融合:在保证信噪比的前提下,光谱/滤波与瞬时视场(IFOV)之间存在一定的矛盾。换句话说,没有传感器能够捕捉到同时具有高空间分辨率和高光谱分辨率的图像。锐化融合致力于融合具有不同空间/光谱分辨率的图像,以生成既具有高空间分辨率又具有高光谱分辨率的期望结果。典型的锐化融合包括多光谱(MS)锐化和高光谱锐化。从源图像成像的角度来看,锐化融合也属于多模态图像融合。然而,从融合目标的角度来看,锐化融合比前述的多模态图像融合需要更高的光谱/空间保真度,带来了直接的分辨率提升。因此,锐化融合被单独讨论。
图2

图 2. 图像融合三大类的示意图。

本文的动机如下。一方面,现有的调查主要关注特定的融合任务,很少有工作综合回顾多种图像融合场景中的最新技术[26-30]。例如,[2]仅研究了红外和可见光图像融合方法的发展,而[31]仅提供了多焦点图像融合方法的综述。此外,这些工作更多地关注传统方法,对于基于深度学习的方法的综述并不全面[32-35]。另一方面,在过去的几年里,图像融合凭借深度学习实现了爆炸性发展,深度融合方法的研究进入了一个新阶段。然而,现有的调查[36]遗漏了最新的深度融合方法,如基于GAN和基于AE的方法。为此,我们提出了一项全面的综述,介绍深度学习在各种图像融合场景中的最新应用,这有助于相关研究人员和技术人员更好地了解深度融合方法的当前发展状态。

本综述的总体框架如图3所示。特别是,我们首先根据图像融合场景的三大类,即数字摄影图像融合、多模态图像融合和锐化融合,讨论了代表性的深度方法。然后,我们对每个融合任务中的代表性深度学习方法进行了简要评估。随后,介绍了一些图像融合的典型应用,即摄影可视化、RGBT目标跟踪、医疗诊断和遥感监测。最后,我们总结了本综述,并结合图像融合中存在的挑战,提出了一些未来研究的前景。
图3

图 3. 本综述的总体框架。

2. 方法综述

2.1. 数字摄影图像融合

数字成像设备首先使用光学镜头捕捉反射的可见光,然后采用数字模块,如CCD和CMOS,记录场景信息。一方面,由于光学镜头受限于景深,通常无法同时对所有物体进行聚焦。另一方面,由于动态范围有限,这些数字模块无法承受过大的成像曝光差异。数字摄影图像融合是解决这些挑战的一个好选择,通过结合不同拍摄设置下捕获的多张图像来生成具有高动态范围的全清晰图像。因此,衍生出了两个典型的数字摄影图像融合任务,即多曝光图像融合和多焦点图像融合。

2.1.1. 多曝光图像融合

成像场景的各个区域之间的照明变化通常很大。由于成像设备的技术限制,传感器捕捉的图像通常在非常有限的曝光动态范围内。换句话说,在单一拍摄设置下拍摄的图像会因为过度曝光/欠曝光而失去场景信息。多曝光图像融合是将不同曝光图像的有效信息结合起来,生成具有适当曝光和丰富成像信息的结果。目前,实现多曝光融合的方法主要包括CNN和GAN方法。

一些CNN方法直接使用训练好的网络从不同曝光的源图像中提取特征,然后根据特征图的显著性确定相应像素位置的重要性,以生成融合权重图【38】。最终的融合结果是通过根据获得的融合权重图直接对源图像进行加权生成的。需要注意的是,特征图的显著性并不一定反映源图像中信息的有效性,这意味着可能会得到令人失望的结果。其他一些CNN方法直接在多曝光数据上进行学习,动态完成特征提取、特征融合和图像重建,这通常遵循两种技术路线。一种是选择曝光良好的图像作为真值,并用它来监督融合网络的训练【39】。然而,这种手动选择的参考图像非常主观,可能会为融合网络的学习设定上限。另一种技术路线是使用专门设计的无参考指标(如MEF-SSIM【40】)来评估融合结果的质量,从而指导网络生成曝光良好的图像【21,41,42】。在融合性能方面,这些基于无参考指标的方法已经产生了令人满意的融合结果。由于无参考指标的合理性直接决定了网络的学习质量,问题的关键在于进一步开发高性能的无参考指标来评估融合结果。

GAN方法将曝光条件视为概率分布,通过对抗学习使融合图像的曝光趋于良好。因此,构建理想的曝光分布作为逼近目标是很重要的。MEF-GAN【43】使用MEF数据集中的标签图像作为曝光参考,这些标签图像是从多个图像融合算法的结果中选择的。如前所述,这种人工选择的真值并不是最佳选择。GANFuse【44】从信息组合的角度构建对抗模型。具体来说,GANFuse认为融合图像与某一源图像的差异应该具有与另一源图像相似的概率分布。尽管这种对抗模型可以使融合图像尽可能多地包含源图像的信息,但假设融合图像中的信息是源图像中信息的总和可能是不准确的。尽管如此,GAN方法仍然产生了令人满意的融合结果。从这个角度来看,充分利用源图像中的信息(如曝光条件、场景结构)来建立无监督对抗模型可能是实现高质量多曝光融合的一个好选择。

2.1.2. 多焦点图像融合

多焦点图像融合问题源于光学镜头的限制。具体来说,很难在一张图像中使不同景深的所有物体都聚焦清晰。多焦点图像融合是将具有不同焦点区域的图像结合起来,生成全清晰的图像。CNN和GAN方法是多焦点图像融合的两种主要深度学习方法。由于多焦点图像融合可以看作是清晰像素的选择,这些深度学习方法可以分为基于决策图的方法和基于整体重建的方法。

本质上,基于决策图的CNN方法是一种分类器,能够有效地确定像素的清晰度和模糊度,从而根据源图像的焦点情况生成融合决策图。最终的融合结果是通过根据融合决策图选择和组合源图像的像素来获得的。用于训练分类器的清晰和模糊图像对的构建策略对最终的融合性能至关重要。这类方法中的大多数使用高斯核对清晰图像进行模糊处理以生成训练图像对【45-50】。然而,这种简单的高斯模糊策略无法模拟真实数据的散焦扩展效应。在意识到这个问题后,一些方法【51,52】使用磨砂边界散焦模式生成逼真的训练数据,带来了更好的融合性能。其他一些方法【53】认为没有必要构建训练图像对。相反,它们使用一些简单的策略,如引导滤波【54】和重复模糊,来构建粗略的伪参考决策图,指导分类网络的优化。然后使用一些额外的正则约束来细化决策图【55】。与上述方法不同,基于整体重建的CNN方法要求融合图像通过筛选规则在相应位置或区域接近源图像,从而指导网络重建全清晰结果【56】。

基于决策图的GAN方法通常使用生成器产生的决策图获得融合结果,然后使用对抗学习使融合结果接近参考全清晰图像。这本质上是对CNN方法在图像层面获得的决策图的进一步精细化。基于整体重建的GAN方法致力于迫使融合图像在像素或特征层面接近期望的概率分布,从而进一步优化重建的融合结果,使其具有更丰富的纹理和更高的像素保真度【58】。

总体而言,基于决策图的方法和基于整体重建的方法各有优缺点。首先,由于基于决策图的方法是直接结合源图像的区域,它可以保持高像素保真度。然而,这种操作需要非常高的决策图准确性,这也导致许多基于决策图的方法在焦点和非焦点区域之间的边界附近失去场景信息。此外,这些方法中的大多数需要后处理来细化生成的决策图,例如一致性验证、全连接条件随机场(CRF)等。相反,基于整体重建的方法具有很强的场景信息保留能力,但可能会遇到一定程度的像素值失真。

2.2. 多模态图像融合

不同传感器的成像原理多种多样,由它们捕获的多模态图像在描述场景时的侧重点显著不同。通过融合不同模态图像中的互补和有益信息,可以提供更全面的成像场景或目标描述。两个最具代表性的多模态图像任务包括红外和可见光图像融合,以及医学图像融合。

2.2.1. 红外和可见光图像融合

红外图像具有显著的对比度,即使在恶劣天气条件下也能有效地从背景中突出目标。可见光图像包含丰富的纹理细节,更符合人类的视觉感知。红外和可见光图像融合就是要结合这两种特性,生成具有高对比度和丰富纹理的结果。为了实现这一目标,AE(自编码器)、CNN和GAN方法都被引入到这一任务中。

AE方法首先在公共数据集(如MS-COCO)上训练一个自编码器,其中编码器致力于从输入图像中提取有效特征,而解码器则从编码特征中重建输入图像【59,60】。因此,训练好的自编码器自然可以用来解决图像融合中的两个子问题:特征提取和图像重建。因此,图像融合的关键在于特征融合策略的设计。目前,在红外和可见光图像融合中,特征融合的策略仍然是手工计算的,不能进行学习,例如加法、 ℓ 1 \ell_1 1-范数【19】、注意力加权【18】。这种手工计算的融合策略比较粗糙,限制了红外和可见光图像融合的进一步改进。

一种用于红外和可见光图像融合的CNN方法是端到端地实现这三个子问题。对于这种技术路线,损失函数和网络结构对最终的融合性能有很大影响【61-63】。在网络结构的设计中,最常见和最有效的手段是残差连接、密集连接和双流架构。由于红外和可见光图像融合中没有真实值,损失函数的设计在于表征融合结果和源图像之间对比度和纹理的相似性。主流的损失函数项包括强度损失、梯度损失、SSIM损失和感知损失,它们的权重比决定了信息融合的趋势。另一种参与红外和可见光图像融合的CNN形式是使用预训练网络(如VGGNet)从源图像中提取特征,并基于这些特征生成融合权重图【64】。从这个角度看,卷积神经网络只实现了融合,而不涉及特征提取和图像重建,从而带来了非常有限的融合性能。

目前,GAN方法在红外和可见光图像融合中最为流行,能够以隐式方式完成特征提取、特征融合和图像重建。一般来说,GAN方法依赖于两种类型的损失函数,即内容损失和对抗损失。内容损失类似于CNN方法中的内容损失,用于初步融合源图像,而对抗损失则进一步约束信息融合的趋势。

早期用于红外和可见光图像融合的GAN方法【24,65】仅在融合图像和可见光图像之间建立对抗博弈,以进一步增强可见光图像丰富细节的保留。为了更好地平衡红外和可见光信息,后续方法【25,66-69】开始使用带有多个分类约束的单一判别器或双判别器,同时估计源图像的两个概率分布。

总体而言,GAN方法可以产生令人满意的融合结果。然而,在训练过程中保持生成器和判别器之间的平衡并不容易。

2.2.2. 医学图像融合

医学图像可以根据所表示的信息分为结构图像和功能图像。例如,PET和SPECT图像可以描述身体代谢功能的强度,而MRI和CT图像可以反映组织的结构。绿色荧光蛋白(GFP)图像可以显示与生物活细胞的分子分布相关的功能信息,而相差(PC)图像可以描述如细胞核和线粒体的结构信息。医学图像融合将两种不同类型的医学图像结合生成一幅信息更丰富的图像,有助于更准确地诊断疾病。目前,用于实现医学图像融合的两种流行方法是CNN方法和GAN方法。

大多数用于医学图像融合的CNN方法仅参与特征融合【22,23,70】。具体而言,这些方法通常使用预训练的卷积神经网络来测量医学图像像素的活跃度并生成融合权重图。然后,将生成的权重图与传统的分解和重建策略(如拉普拉斯金字塔)结合,实现医学图像融合。一个不可忽视的问题是,由于网络的参数不是在医学图像上训练的,预训练网络生成的融合权重图可能不合适。相比之下,其他一些CNN方法基于所需信息在融合结果和源图像之间构建损失函数,在医学图像上精细训练网络【71,72】。训练后的网络可以端到端地完成特征提取、特征融合和图像重建,相较于上述类型的CNN方法,可以实现相对更好的融合性能。

GAN方法通过对抗学习机制同时建模医学源图像中的显著信息【73】。例如,功能医学图像的显著信息是强度分布,结构医学图像的显著信息是空间纹理。GFPPC-GAN【74】将GAN引入GFP和PC图像的融合,利用PC图像和融合图像之间的对抗学习来加强结构信息的保留。DDcGAN【25】采用多个判别器与生成器建立对抗博弈,使生成器生成的融合图像可以包含功能和结构信息。在DDcGAN的基础上,MGMDcGAN【75】根据计算出的掩码引入了第二个对抗博弈,以进一步增强骨密度信息的保留。总体而言,GAN方法在医学图像融合中可以实现优异的性能。然而,由于功能图像的像素强度远大于结构图像,纹理信息可能会被功能信息掩盖。这种医学图像融合的特性对GAN方法提出了挑战,因为GAN训练的不平衡经常发生。

2.3. 锐化融合

锐化融合是一项有效的技术,旨在克服光谱分辨率和空间分辨率之间的矛盾。在空间图像的指导下,致力于在保持光谱分辨率的同时实现空间维度上的超分辨率。两个典型的锐化融合任务是多光谱图像锐化和高光谱图像锐化。

2.3.1. 多光谱锐化

多光谱锐化是将低空间分辨率的多光谱图像(LRMS)与全色图像(PAN)融合,生成具有高空间分辨率的多光谱图像(HRMS)。与上述图像融合任务相比,多光谱锐化需要更高的信息保真度(即光谱、结构)。用于锐化的深度学习方法主要是CNN和GAN方法,根据学习方式分为监督模型和无监督模型。具体来说,监督方法遵循Wald协议【76】,对原始MS和PAN图像执行空间退化操作以获得LRMS和LRPAN图像,如低通滤波、下采样等。然后,将生成的LRMS和LRPAN图像作为输入图像,原始MS图像被视为参考图像。相比之下,无监督方法直接在原始MS和PAN图像上训练。

生成的高空间分辨率多光谱图像(HRMS)与参考图像之间的像素强度距离是监督CNN训练网络的主要约束。然而,仅在此约束下获得的融合结果通常会遭遇空间结构丧失【77–79】。尽管 ℓ 1 \ell_1 1距离比 ℓ 2 \ell_2 2距离能更好地保护这些纹理细节,但仍不令人满意【80,81】。为了解决这一挑战,一些方法采用新颖的学习策略(如残差学习【82】、高频域训练)和额外的损失函数(如感知损失)以进一步增强结构的保留【83–85】。其他一些方法提倡探索PAN图像和HRMS图像之间的空间结构关系,并利用其指导融合结果包含更合理的纹理细节【86,87】。无监督的CNN方法依赖于能保留光谱和空间结构的损失构建。通常的光谱保留损失函数是空间退化后的融合图像与LRMS图像之间的距离。因此,设计用于保留空间结构的损失函数是实现高质量锐化的关键。一般来说,空间损失被定义为PAN图像与转换后的融合HRMS图像之间的强度/梯度距离,其中的转换策略包括回归线性加权【88】、通道复制【16】等。

与CNN方法相比,GAN方法将对抗机制作为额外的约束,使融合的HRMS图像具有更高的光谱保真度和合理的空间结构。GAN方法也可分为监督和无监督两种类型。典型的监督GAN方法直接使用参考图像作为对抗目标【89,90】,以同时实现所需光谱分布和空间结构分布的估计。由于没有可以同时提供理想光谱和空间分布的参考目标,无监督GAN方法使用两个独立的判别器来实现光谱和结构的保留【91】,其中对抗博弈中涉及的数据构建与上述无监督CNN方法类似。

在融合性能方面,当前的监督方法优于无监督方法。然而,需要注意的是,监督融合网络的性能高度依赖于配对数据的构建,这意味着监督模型在全分辨率测试中可能表现不佳。对于无监督方法,目前的主要问题在于用于构建空间结构损失的假设不够合理,限制了无监督模型的性能。

2.3.2. 高光谱锐化

与多光谱图像相比,高光谱图像具有更高的光谱分辨率和较低的空间分辨率。因此,通过融合低空间分辨率的高光谱图像(LRHS)和多光谱图像或全色图像,可以生成高空间分辨率的高光谱图像(HRHS),实现高光谱锐化。用于高光谱锐化的深度模型包括CNN和GAN方法。与多光谱锐化任务类似,这些方法在高光谱锐化任务中也可以分为监督和无监督方法。

由于HRHS图像不可用,监督CNN方法通常在模拟数据上进行训练。更具体地说,这些方法直接使用现有的光谱响应函数(SRF)和自定义点扩散函数(PSF)对原始高光谱图像进行光谱退化和空间退化。退化图像和原始高光谱图像被构建成图像对,在监督下学习高光谱锐化【92–95】。然而,这种通过在模拟中进行监督训练获得的模型可能不适用于真实场景。在一些无监督的CNN方法中,尽管在训练过程中不需要参考图像进行监督,但需要知道CRF和PSF。这些方法通过SRF和PSF建立生成的HRHS图像与观察到的源图像之间的一致性关系【96–98】,从而实现对HRHS图像的有效估计。不幸的是,在大多数情况下,SRF和PSF是未知的。为了应对这一挑战,一些CNN方法结合高光谱解混合设计耦合网络来估计SRF和PSF【99–101】,从而实现无监督的高光谱锐化,这些方法显示出有前途的性能。与上述方法不同,研究【98】假设HRHS和LRHS图像共享相同的光谱子空间,其中CNN仅用于规范子空间系数的估计,从而生成所需的HRHS图像。

相比于CNN方法,用于高光谱锐化的GAN方法研究相对较少。HPGAN【102】采用3D卷积网络,在参考图像的监督下,专注于捕捉所需的高频残差。最终的融合结果是通过将上采样的LRHS图像和学习到的高频残差相加得到的。此外,HPGAN使用已知的SRF将生成的HRHS图像退化为全色图像,从而与源PAN图像建立对抗博弈,进一步增强高光谱锐化的性能。

2.4. 统一图像融合方法

有些方法具有良好的通用性,能够使用统一的框架实现各种图像融合任务。尽管这些方法的理念往往差别很大,但其特点是能够找到不同融合任务的共性。尤其是,U2Fusion [1] 采用弹性权重巩固(EWC)来持续训练融合网络,可以克服跨任务学习中的灾难性遗忘问题。通过这种方式,U2Fusion为各种图像融合任务建立了一个通用模型。

PMGI [16] 将各种图像融合任务建模为强度和梯度信息的提取和重构。只需根据特定任务中的信息融合趋势调整损失函数项的系数比率,即可适应多种图像融合场景。

IFCNN [17] 认为任何图像融合任务都是有效信息选择的问题,其中信息有效性的评估基于像素的清晰度。其他类似的统一方法包括SGRFR [103]、CU-Net [104]、DIF-Net [105]、SDNet [106]等。

3. 评价

针对上述六种图像融合任务,我们在其各自的代表性数据集上进行了评估实验。具体来说,多曝光图像融合的测试数据来自MEF 1数据集【108】,该数据集收集了来自室内和室外两类场景的多曝光序列;多焦点图像融合的测试数据来自Lytro2数据集【109】,该数据集使用Lytro相机在特定视角下改变焦点深度以获取不同焦点区域的数字图像;红外和可见光图像融合的测试数据来自TNO3数据集,主要描述各种军事相关场景;医学图像融合的测试数据来自哈佛医学院网站【110】,包括大脑半球的不同横截面;多光谱锐化的测试数据来自QuickBird数据集,其中多光谱图像包含4个波段;高光谱锐化的测试数据来自Cave5数据集【110】,其中高光谱图像包含31个波段。每个图像融合任务中选择五种代表性方法进行评估,包括基于AE的方法、基于CNN的方法、基于GAN的方法和统一方法。

3.1. 定性和定量评价

首先从定性和定量两个方面进行评价。对于定性评价,每个图像融合任务选择两个典型的可视化结果,突出相关区域以反映差异。对于定量评价,根据各自的特点选择4个流行的客观指标。定性和定量结果分别在图4–6和表1中报告。

在数字摄影图像融合中,DeepFuse【21】、GANFuse【44】、CNN【45】和MMF-Net【51】取得了相对较好的性能,这为进一步提高深度学习性能提供了两条途径。一是为无监督学习设计更高质量的无参考指标,二是为监督训练构建更符合实际情况的数据。可以发现,一些统一方法(如PMGI【16】和U2Fusion【1】)在某些多模态图像融合任务中甚至优于专门设计的方法。这一现象表明,寻求图像融合场景的共性以建立通用模型是非常有前途的。在锐化融合场景中,性能较好的方法的共同特点是它们充分考虑了融合结果与源图像在空间或光谱维度上的关系,如GTP-PNet【87】和GDD【96】。这一现象鼓励后续研究更多关注空间和光谱退化模型的估计。

3.2. 效率评价

对于基于深度学习的融合方法,运行效率是衡量融合性能的重要因素。我们统计了上述典型方法的运行时间,结果如表2所示。可以看到,统一的PMGI【16】、基于GAN的MFF-GAN【58】、基于CNN的PNN【77】和CuCaNet【99】实现了相对较高的运行效率,这是由于它们的共同特点。具体来说,这些方法都具有相对简单的网络结构,保证了较少的模型参数量。在简单网络结构下,设计更适合任务特性的约束和优化方法,可以同时获得准确性和效率的双重收获。这启示后续研究应更多关注图像融合任务本身的特性,而不是盲目增加神经网络的规模。
表1

表1. 对六项融合任务中代表性方法的定量比较。
我们根据不同融合场景的特点选择不同的评估指标,以实现有针对性的评价。粗体表示最佳结果。

图4

图4. 数码摄影图像融合场景中代表性方法的定性比较。
(a)和(b)分别是多曝光图像融合和多焦点图像融合。

图5

图5. 多模态图像融合场景中代表性方法的定性比较。
(a)和(b)分别是红外与可见光图像融合和医学图像融合。

4. 应用

图像融合可以有效地整合来自不同源图像的信息,为下游任务提供更有用的输入,从而提高这些应用的性能。我们将简要介绍几种典型应用,如摄影可视化、目标跟踪、医学诊断和遥感监测,以直观展示图像融合的重要性。

4.1 摄影可视化

摄影可视化是为了很好地展示数字成像设备捕捉到的结果,致力于提升用户的视觉体验【111,112】。然而,数字成像设备通常具有预定义的景深和有限的动态范围,这意味着设备直接输出的图像可能不尽如人意【113,114】。图像融合可以将不同拍摄设置下捕获的图像中的有效信息结合起来,生成全焦点且曝光适当的图像,从而大大提高摄影质量【115,116】,如图7所示。目前,图像融合技术已被集成到一些数字成像设备中【117,118】,包括相机、手机等。

4.2 RGBT目标跟踪

目标跟踪是指在视频的后续帧中找到当前帧中定义的感兴趣目标【119】。最常见的是单模态跟踪,如基于可见光模态的跟踪和基于红外模态的跟踪。然而,由于单一模态表示的限制,这些跟踪方法并不稳健。具体来说,可见光图像的质量依赖于成像环境,这意味着在夜间或光线不佳的情况下,目标跟踪的性能无法保证。同样,红外图像缺乏纹理,场景立体感差,在某些情况下也不可靠。因此,产生了一种新的目标跟踪技术路线,即RGBT跟踪【120,121】,它融合了红外和可见光图像中的互补信息,使目标跟踪更加稳健,如图8所示。常见的RGBT跟踪方法包括基于稀疏表示的方法【122,123】,基于图的方法【124,125】,基于相关滤波的方法【126,127】,以及基于深度学习的方法【128,129】。无论是哪种方法,在融合过程中保持有效的目标信息是实现高质量RGBT跟踪的关键。换句话说,能够同时保留红外模态中目标显著性和可见光模态中目标纹理细节的融合结果将使跟踪精度更有前景【130–132】。

图6

图6. 锐化融合场景中代表性方法的定性比较。
(a)和(b)分别是多光谱锐化和高光谱锐化。我们展示了融合结果与真实值之间的残差。

表2

表2. 六种融合任务中代表性方法的平均运行时间(单位:秒)。加粗表示最佳结果。

4.3 医学诊断

绝大多数医学诊断是通过计算机或医生分析医学图像来完成的。不同模态的医学图像成像机制多种多样,它们在描述身体信息上的侧重点也各不相同【26,34】。常见的医学模态包括计算机断层扫描(CT)【133】、磁共振成像(MRI)【134】、正电子发射断层扫描(PET)【135】、单光子发射计算机断层扫描(SPECT)【136】和超声【137】。其中一些模态侧重于描述器官和组织的结构,而另一些则侧重于描述区域代谢的强度。在这种情况下,融合不同模态的医学图像将大大提高诊断的准确性和效率,同时减少冗余信息并提高图像质量【138,139】,如图9所示。具体而言,一些疾病不仅会导致组织的物理形状变化,还会增加局部代谢的强度,如肿瘤。因此,功能性和结构性医学图像的结合可以提高这些疾病的诊断准确性【140-142】。此外,医学图像融合可以促进疾病确定和病灶定位的同步实现,这将极大地提高诊断效率并节省后续治疗的时间。正是因为这些诱人的益处,图像融合已经被集成到一些医学诊断设备中,以帮助前沿医学工作者实现高质量的诊断【143】。
图7

图7. 两个典型的摄影可视化案例。
图像融合可以提供具有良好视觉体验的高质量图像。

图8

图8. 一个典型的RGBT目标跟踪案例。
图像融合可以使被跟踪目标更容易从背景和其他目标中区分出来。

图9

图9. 一个典型的医学诊断案例。
图像融合可以使诊断更准确和高效。

4.4 遥感监测

遥感监测是通过分析高光谱/多光谱图像来观察和调查陆地、海洋和天气的过程【144,145】。常见的遥感监测任务包括土地覆盖分类【146】、植被检测【147】、矿物勘探【148】等。然而,光谱分辨率和空间分辨率无法同时实现。换句话说,高光谱/多光谱图像的低空间分辨率限制了遥感监测精度的进一步提高。

幸运的是,锐化融合可以在保持光谱分辨率的同时提高空间分辨率【149】。因此,技术人员引入了图像融合来对遥感图像进行预处理,大大提高了相关监测任务的性能,如图10所示。目前,锐化融合技术已成功应用于数字地球建模和土地覆盖制图等任务,展示了良好的实用价值【149,150】。
图10

图10. 遥感监测的典型案例。
图像融合可以提高植被检测的准确性。

5. 结论与展望

作为一种增强技术,图像融合在摄影可视化、目标跟踪、医学诊断和遥感监测等各个领域发挥了关键作用。近年来,基于深度学习的图像融合方法越来越多地被提出,以提高融合性能。为了为相关研究人员和技术人员提供有效的参考和理解,本调查全面分析了图像融合领域最新的基于深度学习的方法。我们结合具体的图像融合场景讨论了各种方法的特点,并提供了进一步改进的方向。此外,我们还对每个融合任务中的代表性方法进行了性能比较,并介绍了一些典型的图像融合应用。尽管在使用深度学习进行图像融合方面已经做出了广泛的努力,但仍存在一些未解决的挑战。

未注册图像融合。目前,在几乎所有的图像融合任务中,基于深度学习的方法假设源图像是预先注册的【151】。然而,由于视差、尺度差异和其他因素的存在,多模态图像和数字摄影图像在实际场景中未注册。因此,现有深度学习方法中的空间像素位置操作对实际源图像不可用。尽管许多现成的方法【152】可以用于预注册源图像,但对预处理注册算法的依赖可能导致某些局限性,如低效率和对注册精度的依赖。因此,开发非注册融合算法,以隐式方式实现图像注册和融合是非常理想的。

不同分辨率图像融合。由于传感器原理的不同,源图像的分辨率通常不同。克服分辨率差异并充分利用不同源图像中的信息以实现有效融合是一个挑战。尽管已经提出了一些方法【25,153】来解决不同分辨率图像融合问题,但仍然存在一些未解决的问题,如采用的上采样策略和网络中的上采样位置。更重要的是,期望通过有机结合超分辨率和图像融合任务的特点来设计深度网络。

任务导向的图像融合。图像融合的初衷是为后续应用提供更有利的输入。然而,在许多图像融合任务中,现有的基于深度学习的方法在设计损失函数时并未考虑融合与后续应用之间的相关性,这常常导致非常主观的融合结果。未来的研究可以考虑在融合阶段将后续任务的准确性引入到损失函数设计中,从决策层面指导融合过程。

实时图像融合。从应用需求的角度来看,图像融合是许多视觉任务的先导,其性能直接影响整个任务的准确性。一些实际应用对算法的实时性能有很高的要求。然而,目前的图像融合方法中的复杂变换分解和迭代优化导致运行效率较低,限制了图像融合在一些实时任务中的应用,如视频监控。因此,开发实时图像融合算法具有重要意义,这将使图像融合具有更广阔的应用前景。

融合质量评估。由于在大多数图像融合任务中没有真实的地面真值,评估融合结果的质量非常具有挑战性。因此,为图像融合领域设计具有更强表征能力的无参考指标非常重要。一方面,所提出的指标可以用于构建损失函数,以指导更高质量的融合。另一方面,新设计的指标还可以公平地评估融合结果,促进后续融合研究。距离度量学习可能是融合质量评估的一个不错选择。

基于以上的回顾与展望,我们还没有达到图像融合的上限。非注册融合方法对真实数据更具鲁棒性;不同分辨率图像融合可以克服尺度差异;任务导向的融合方法具有更高的实用价值;实时图像融合具有更广泛的应用前景;更高质量的融合评估指标能够提高融合性能。让我们拭目以待。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值