作者:Zixiang Zhao Haowen Bai Jiangshe Zhang Yulun Zhang Kai Zhang Shuang Xu Dongdong Chen Radu Timofte
目录
Abstract
多模态图像融合是一种将来自不同传感器或模态的信息进行融合的技术,使融合后的图像能够保留来自各模态的互补特征,如功能亮点和纹理细节等。然而,由于地面真值融合数据的稀缺性,对这类融合模型的有效训练具有挑战性。为了解决这个问题,我们提出了端到端自监督学习的等变多模态图像融合( EMMA )范式。我们的方法根植于先验知识,即自然成像响应对某些变换是等变的。因此,我们引入了一种新的训练模式,包括一个融合模块,一个伪感知模块和一个等变融合模块。这些成分使得网络训练在满足等变成像先验的同时,遵循自然感知-成像过程的原则。大量实验证实,EMMA对红外-可见光图像和医学图像都能得到高质量的融合结果,同时也为下游的多模态分割和检测任务提供了便利。
1.Introduction
多模态图像融合作为一种图像复原方法,综合多个传感器和模态的信息,生成场景和物体的综合表示[ 29、38、51、54]。在图像配准[ 13,36,39]、场景信息增强或恢复[ 7、20、42、43、53]等任务以及多传感器场景下的目标检测[ 1、21]、语义分割[ 24、33 ]等下游任务中得到了广泛的应用。值得注意的任务包括红外-可见光图像融合( IVF )和医学图像融合( MIF )。IVF侧重于融合来自输入红外图像的热辐射信息和来自输入可见光图像的复杂纹理细节,从而得到减轻可见光图像受光照变化影响和红外图像易受低分辨率和噪声[ 48、56 ]影响的局限性的融合图像。MIF的主要目标是提供患者医疗状况中任何异常的全面表征。这是通过集成多种成像技术来完成的,从而实现了一个支持诊断和治疗过程的智能决策系统[ 12 ]。
我们假设融合图像的底层真值是信息丰富的,但在实际中我们只能通过不同的感知过程来测量相同的真值,这些感知过程通常是非线性的,难以建模,从而获得不同模态的观测。因此,多模态图像融合问题可以看成是一个具有挑战性的非线性、盲逆问题,可以看成如下的负对数似然最小化问题:
其中和
分别表示两幅输入源图像和输出融合图像。( 1b )式中:源于贝叶斯定理。( 1c )式中,第一项是数据保真项,表明
和
是由
感知的;第二项为先验项,表示
需要满足一定的融合图像先验或经验特征。
在深度学习时代,无数先进的方法都在努力对这个问题进行更好的建模。然而,在这一任务中,仍有一些紧迫的问题没有得到解决。( 1c )式中为第一项,显然,单个传感器仅限于捕获模式特异性特征;现实中不存在能够同时感知所有模态信息的单一"超级"传感器。因此,缺乏确定的地面真值阻碍了深度学习的监督学习范式在图像融合任务中的有效应用。虽然基于生成模型的方法[ 21、26 ]试图通过使源图像和融合图像属于相似的分布来实现融合,但它们缺乏可解释性、可控性,并且存在训练挑战。另一方面,基于人工构造的损失函数[ 18、38、51]的方法往往通过最小化或
距离来推动融合图像与源图像相似。然而,这种直接计算
来确定
的方法忽略了融合图像与源图像之间潜在的域差异,没有考虑到
可能与
和
不在同一个特征流形上。同时,对于式( 1c )的第二项,研究人员通常假设融合图像表现出一定的结构,如低秩[ 17、19],稀疏性[ 6、8],多尺度分解[ 51、54 ]等,并施加先验来限制解空间。然而,由于真实的融合图像是不可获取的,这些先验通常依赖于对融合图像的推测性假设或来自自然图像先验的外推,从而过度依赖领域知识,对未知场景的适应性有限。
针对上述提到的挑战,我们计划从两个方面来解决。首先,由于对齐分布和手工构造的损失函数是具有挑战性的任务,我们建议从传感和成像过程入手。我们的目的是学习感知,或者说,从融合图像回到各种模态的图像的逆映射。这种方法比掌握融合过程本身更直观简单。通过这样做,我们可以测量输入源图像和(伪)感知结果之间的损失,这些(伪)感知结果是通过将融合图像应用于不同的感知函数获得的。该策略克服了没有地面真值图像进行融合的问题。此外,由于图像融合是一个固有的不适定问题,仅仅优化前述的感知损失可能无法得到最优的融合图像。因此,我们引入了一个概念简单但有效的先验,它基于成像系统的固有先验,不依赖于融合图像的特定领域知识。这种非特定域的先验是基于这样的理解:自然的成像响应对诸如位移、旋转和反射等变换是等变的。换句话说,变换后的融合图像,在感知和重新融合后,应该产生与感知前相同的结果。利用自然成像系统的等变性先验,为融合网络内部的学习过程提供了更强的约束和指导。综上所述,针对图像融合常用的学习范式,我们做了以下改进:
式中:为融合模型,
为感知模型。
(这里是=,水印把它遮住了)和
(这里也是=)分别表示
和
各自的感知结果,分别由各自对应的感知模型
和
确定。
和
共同构成了感知模型
。
遵循这一方法,我们设计了一种自监督学习范式,命名为等变化的多模态图像融合( EMMA )。该框架由融合模块、伪感知模块和等变融合模块组成。融合模块U - Fuser是一种U -网络化[ 30 ]结构,它包含了Restromer [ 45 ] CNN块,用于建模全局和局部特征,从而有效地聚合信息。基于U - Net [ 30 ]的伪感知模块是一个可学习的结构,它将融合图像映射回源图像,模拟了感知成像的自然过程。最后,设计了等变融合模块,保证融合后的图像符合既定的等变成像先验。我们的贡献如下:
- 我们提出了一种名为EMMA的新型自监督学习范式,旨在解决图像融合中真值缺失的问题。EMMA利用非特定域先验的自然感知-成像过程,即成像响应对平移、旋转和反射等变换是等变的。
- 通过伪感知模块和感知损失分量有效地模拟感知成像过程,改进了传统融合损失中对融合图像和源输入之间域差异的不恰当处理。
- EMMA中提出的U - Fuser融合模块熟练地建模跨多个尺度的长、短程依赖关系,以整合源信息。
- 我们的方法在红外-可见光图像融合和医学图像融合中表现出优异的性能,这也被证明有利于下游的多模态目标检测和语义分割任务。
2.Related Work
多模态图像融合。在深度学习时代,多模态图像融合方法可以分为四类:生成式模型[ 2628 ]、基于自动编码器的模型[ 16、18、22、24、46]、算法展开模型[ 6、8、41、52]和统一模型[ 15、37、38、47、49]。生成模型通过生成对抗网络[ 26-28 ]或去噪扩散模型[ 55 ]来表示融合图像和源图像在隐空间中的分布。基于自编码器的模型使用带有CNN或Transformer块的编解码器作为基本单元,对图像域和特征域[ 20、35、54 ]之间的映射/逆映射进行建模。算法展开模型将算法重点从数据驱动学习转移到模型驱动学习,在保留原有计算图结构的同时,用CNN / Transformer模块替换复杂算子,实现了轻量级可解释性学习[ 19、52 ]。统一模型通过跨任务学习识别不同任务之间的元知识,能够快速适应新任务,以较少的实例[ 38、46 ]提升性能。此外,多模态图像融合任务往往与上游(预处理)图像配准任务[ 13,36,39]和下游目标检测与语义分割任务[ 21、23、31、33]集成到耦合系统中。图像配准可以有效地消除图像伪影和不对齐区域,增强边缘清晰度,扩大感知域[ 11、39、40]。此外,下游任务中识别损失的梯度可以有效地指导融合图像[ 21、23、33、50]的生成。
等变化的成像。等变化的成像( EI ) [ 2-4 ]是一种新兴的完全无监督成像框架,它利用自然信号中的群不变特性,仅从部分测量数据中学习重建函数。EI的主要思想是利用自然信号往往具有一定的对称性这一事实。例如,图像通常是平移不变的,这意味着如果它们向四周移动,它们看起来是一样的。在此不变性先验下,整个成像系统(从感知到重构)是变换等变的。在一定的感知条件下[ 32 ],重建函数将能够正确地重建周围已经变换过的图像,即使它以前从未见过这些图像。EI作为一种有前途的成像新方法和获取和处理图像的新方法,已被证明对多种线性反问题是有效的[ 4 ]。本文致力于探索EI在更具挑战性的任务上的潜力,即多模态图像融合中的非线性和盲逆问题。
与现有方法的比较. a )与常规融合损失,即图像域或特征域[ 18、33、51]中的(中间是+)相比,EMMA中式(2)(Introduction中的)缓解了传统损失函数中由于
和
之间的流形差异造成的不合理性,保证了
和
之间计算的距离在同一个域内。b )类似的融合到源图像的映射概念[ 44、46 ]旨在使
可分解为
,以确保其包含源图像信息。然而,它们的分解模块作为融合算法的组成部分,在训练过程中经历更新,融合输出被认为是用于源重建的特征。因此,分解学习的熟练程度并不一定与融合中的增强信息相关。相反,在EMMA范式中,伪感知模块的学习与融合网络的学习是解耦的,并且在EMMA训练过程中保持冻结(意思是伪感知模块和融合模块是分开的,在训练过程中伪感知模块参数是固定的),从而确保从融合图像回到源图像的映射是显式和确定的。这增强了感知模块的合理性和可解释性。c )此外,其他基于先验的优化[ 19、51 ]往往需要融合图像的领域知识。然而,在EMMA中,我们只需要利用成像系统先验而不是融合图像先验来完成自监督学习。
3. Method
在这一部分中,我们首先给出了模型的形式化描述,包括感知模块和融合模块,并给出了建立等变图像融合范式的模型假设。然后,我们以IVF任务为例,给出了EMMA的实现细节。其他的图像融合任务可以类似地推导出来。
3.1. 问题概述
设和
分别表示红外、可见光和融合图像,其中
。我们假设存在一个信息丰富的
,它包含多感官和多模态信息,需要进行预测。然而,到目前为止,现实生活中还没有一种感知设备可以完全感知
。因此,作为一种无监督的任务,
并不存在真值。因此,我们对融合过程和感知过程进行如下建模:
其中表示融合模型,
和
分别表示
和
的感知模型,即红外和RGB相机。在传统的图像反问题
中,
和
分别为真值图像和测量值,退化算子
为已知的(例如去噪任务中的噪声分布和超分辨率任务中的模糊核)。然而,在图像融合中,我们无法显式地获得
和
。尽管如此,我们可以将它们设置为可学习的,以便模拟感知过程并辅助网络进行自监督学习。
3.2. Model hypothesis
为了提供全面的感知和融合模型,并进一步支持后续引入的EMMA框架,我们首先需要建立一些必要的假设。
a )测量一致性。我们假设融合函数在测量域内保持一致性,即,
然而,由于感知过程的欠定性质,无法通过估计或
的逆来实现对
的估计,必须在其逆的范围空间之外学习更多的信息。
b )不变集一致性。我们首先给出等变成像中的两个定义[ 4 ]:
定义1 (不变集) .对于由酉矩阵组成的变换集
,若
对
和
成立,即
和
相同,则
是关于变换
的不变集。
定义2 (等变函数) .如果函数满足
,对
和
,我们称
是关于变换
的等变函数.
关于定义1的推论,如果代表一组自然图像,显然结果在包含平移、旋转和反射的变换后仍然是自然图像。因此,
是变换群
的不变集.此外,作为
的一个子集,由融合图像
构成的集合也是
的一个不变集.此外,在定义1和定义2中,"不变性"指的是数据集的性质,而"等变性"指的是成像系统的性质,即成像系统(在本文中记作
)是关于
的等变函数.因此,我们提出下面的定理:
定理1 (等变图像融合定理) .如果将定义2中的看作复合函数
,其中
为融合模型,
(包括
和
)为感知模型,则等变图像融合定理为:
证明。考虑一组满足不变性的自然图像,由定义2可知成像系统
应等变于群作用
。因此,对于
,有
。此外,通过将
分离成
和
,我们可以得到方程( 5 ) 。
备注1。式( 5 )中:不要求或
是
的等变元,而要求
是
的等变元。因此,这里的
和
可以被设置为任意形式的映射而不受限制.
接下来,我们将演示如何基于定理1建立我们的等变图像融合范式。
3.3. 等变图像融合范式
本文的主要工作是提出了一种基于等变成像先验的自监督图像融合框架EMMA,具体工作流程如图1所示。
图1。EMMA的工作流程。将图像对{ i,v }作为U - Fuser F的初始输入,得到融合图像f。接着对f进行一系列包含平移、旋转、反射等变换,产生
,然后将
输入到参数冻结的(训练好的)
中,生成伪感知图像
,最后输入到
中,得到re-fused图像
。在整个框架中,作者的目标是将{i,v}中的信息聚合成融合图像f,并且根据等变图像融合定理(定理1),
和
应该足够接近。这些将通过设计的损失函数来保证。
总体范式。首先,我们建立了一个网络化融合模块,命名为
,它结合了一个Restormer [ 45 ],以CNN块为基本单元,从输入
和
中生成融合图像
。随后,基于定理1中的等变图像融合定理,采用一种基于等变先验的自监督框架,包括
模块和可学习(伪)感知模块
和
,以在没有融合真值的情况下更好地保留源图像信息。具体来说,我们将U - Fuser估计的
通过一系列变换
得到
,然后将
通过伪感知模块
得到伪图像
。最后,将
与U - Fuser再次融合得到
.
与其他方法需要精心设计的损失函数来最小化与
之间的距离不同,EMMA的损失侧重于使感知模块从
生成的伪图像
尽可能接近原始
,同时使
接近
。这样,从自然成像的角度出发,找到了最优的融合图像
。
在接下来的正文中,我们将首先介绍融合模块U - Fuser和伪感知模块
,然后说明整个自监督学习框架,最后给出训练损失函数。
U - Fuser模块。我们采用U - Net - like结构来融合 和
,并生成融合图像
。在每个尺度上,由于输入的跨模态特征既包含环境和背景信息等全局特征,也包含高亮和细节纹理对象特征等局部特征,我们设计了Transformer - CNN结构,通过利用它们各自的归纳偏差来更好地建模跨模态特征。在Transformer块的选择上,我们采用了Restromer块[ 45 ],该块在通道维度上实现了自注意力,在不增加过多计算量的情况下对全局特征进行建模。在CNN块中,我们使用Res - block [ 10 ]。将RestromerCNN块的输入特征进行嵌入,然后由Restromer块和Res - block并行处理,接着嵌入交互和一个CNN层,最后输入到下一个尺度。
和
在同一尺度下的特征在融合层进行融合,并通过跳跃连接传递到上一尺度的重构分支。特征融合与重构的块设计与特征提取分支中使用的Restromer - CNN块相同。
伪传感模块。与该领域的其他工作相比,他们的算法主要集中在融合函数的设计上,在本文中,我们提出了一种基于等变成像先验的自监督学习框架,以解决融合图像缺乏真值的问题。根据定理1所述的等变图像融合定理,我们需要从
和
中获得伪成像结果。为了实现这个目标,我们需要模拟从(想象的)融合图像中感知红外和可见光图像的过程,如方程( 4 ) 所述。由于显式地给出
和
的结构是不可行的,我们采用数据驱动的学习方法来获得它们。最近,许多基于深度学习的方法在图像融合中显示出很有前途的结果。因此,我们选取了最近在顶级场馆中出现的15种最先进的方法( SOTA )。它们是Didfuse [ 51 ],U2Fusion [ 38 ],Sdnet [ 46 ],Rfn-nest [ 18 ],Auif [ 52 ],Rfnet [ 39 ],Tardal [ 21 ],除融合[ 20 ],Reconet [ 11 ],Metafusion [ 50 ],Cddfuse [ 54 ],Lrrnet [ 19 ],Murf [ 40 ],Ddfm [ 55 ]和Segmif [ 23 ]。我们将它们的融合结果作为融合图像的(伪)真实值,然后学习从融合图像到
和
的映射,分别称为
和
。考虑到映射的输入和输出都具有相同的图像大小,我们选择U - Net [ 30 ]作为
和
的骨干,并进行端到端的训练范式。具体的网络详细信息在补充材料中。
等变图像融合。在得到U - Fuser 和伪传感函数
之后,我们介绍了基于图像等变先验的自监督学习框架。如图1所示,我们首先将图像对
输入到
中,得到融合图像
(这是传统融合算法的全部操作)。然后,我们对
施加一系列变换
,包括平移、旋转、反射等,从而得到
。随后,将
输入到训练好的
中,得到伪感知图像
,它们包含了
的信息,分别满足红外和可见光图像的成像特性。最后,将成对的
送入
,得到re-fused图像
。在整个框架中,我们的目标是将
中的信息聚合成
,并且根据等变图像融合定理(定理1 ),
和
应该足够接近。这些将通过设计的损失函数来保证。
训练细节和损失函数。在EMMA的整个训练过程中,我们首先使用 loss作为损失函数来训练
和
,即
和
,其中
是3.3小节中SOTA方法的融合结果。然后,我们冻结
和
的参数,这意味着伪传感模块的参数将不再更新。然后,利用总损失函数训练U - Fuser模块:
其中。
和
是调节参数,并且
表示Sobel算子。特别地,式(6)的第一项和第二项,确保我们的范式满足3.2小节中模型假设的测量一致性。而第三项则保证了其满足模型假设的不变集一致性。
3.4. 解释说明
在这里,我们将解释为什么EMMA的无监督融合是有效的。由图像集对一组可逆变换
是不变的,由不变集
给出任意图像
,则对所有的
,
也属于该集合。根据定理1中的等变定理,当
时,有
,其中
,
属于
.也就是说,应用变换等价于生成多个虚拟传感算子
。由于这些虚拟算子
具有潜在不同的零空间,这使得我们可以在逆
的值域空间之外进行学习(参见文献[ 32 ] )。
真实值的缺失导致和
的建模存在潜在的不准确性,使得
的重建在最初的几个训练阶段可能不尽人意。幸运的是,将
变换与等变成像先验学习相结合,可以对原本缺失的知识进行补全,从而对融合结果进行校准和精化,即实现对缺失零空间分量的恢复。值得注意的是,在最后的算法部署阶段,只需要微调后的U - Fuser
,其他模块都将被忽略,如
和
。最后,所提出的等变融合模块不同于数据增强( Data Augmentation,DA ),它主要基于真实数据进行数据扩展。然而,在图像融合任务中,真值是绝对不可获取的,DA在学习没有真值[ 2、4]的图像时无法提供额外的信息增益。幸运的是,正如我们已经证明的那样,在等变性先验下,所提出的EMMA可以提供额外的信息,并计算出原则上可行的融合结果。
4 .实验
4.1. 红外与可见光图像融合
Set up。我们在MSRS [ 34 ]、RoadScene [ 37 ]和M3FD [ 21 ]三个时尚基准上进行实验。该网络在MSRS训练集上进行训练,并在其测试集上进行测试,以评估性能。此外,将训练好的模型在不进行微调的情况下实现到RoadScene和M3FD上,以验证泛化性能。我们的实验是在配备了两个GeForce RTX 3090 GPU的计算机上使用PyTorch进行的。训练图像对被随机裁剪成128 × 128的图像块,批处理大小为8,然后送入网络。(6)式中α1和α2被设置为1和0.1,以确保损失函数中的项之间具有可比性。我们使用Adam优化器对网络进行了100轮的训练,初始学习率为1e - 4,每20轮以0.5的因子递减。U - Fuser被设置为包含四层结构。被设置为五层UNets [ 30 ]。它们在U - Fuser训练之前是预训练和参数冻结的。关于变换集
,我们将在我们的补充材料中讨论.
SOTA方法和度量指标。我们将EMMA与IVF的SOTA方法进行比较,包括SDNet [ 46 ]、Tar DAL [ 21 ]、DeFusion[ 20 ]、MetaFusion [ 50 ]、CDDFuse [ 54 ]、LRRNet [ 19 ]、MURF [ 40 ]、DDFM [ 55 ]和SegMIF [ 23 ]。采用熵( EN )、标准差( SD )、空间频率( SF )、平均梯度( AG )、结构内容相异性( SCD )和视觉信息保真度( VIF ) 6个指标对融合性能进行客观比较。更高的数值表明了更好的融合效果,计算细节见[ 25 ]。
4.1.1. 消融研究
我们在MSRS测试集上进行了消融研究,以证明EMMA的合理性,结果如表2所示。
在Exp. I,我们去掉式( 6 )中的最后一项,即等变项。即使融合模块能够完成图像融合,也无法通过等变先验约束解空间。因此,网络产生较弱的结果。
在Exp .Ⅱ,对式( 6 )前两项进行修正,为L1(f,i)+L1(f,v),这是在其他融合任务中的传统损失。式(6)的前两项,即感知损失,保证融合图像需要继承源图像的足够信息,使得输出的伪感知成像结果更接近源图像。而传统的损失函数纯粹地迫使融合图像与源图像相似。ExpⅡ 结果证明了感知损失项的必要性。
在Exp .Ⅲ,我们将等式(6)中的损失替换为Exp .Ⅱ中的损失。 结果表明,在没有等变损失和感知损失的情况下,依靠L1(f,i)+L1(f,v)损失很难实现理想的融合网络。
在Exp. IV,为了进一步证明我们的主张,我们采用与EMMA相同的变换对输入图像i和v进行数据增强( DA ),并在消融实验Exp.Ⅲ的基础上进行扩展。即在原始网络输入上采用与EMMA相同的变换组,融合训练框架沿用传统方法。具体地,损失函数变为:,其中
。实验结果表明,在相同的变换下,DA在i和v上仅有微小的提升。相反,与EMMA相比,在有效性方面存在显著差异。因此,我们的等变融合模块与传统的DA有本质区别,因为DA在学习无真值图像时无法提供额外的信息增益。
在Exp.V和Exp.Ⅵ,我们分别消除了Restormer - block或Res - block,通过增加剩余block的数量来保证参数数量一致。结果表明,不完整的特征提取模块会导致在建模局部纹理细节或捕捉长程依赖关系方面存在不足,从而导致性能下降。
4.2. 下游IVF申请
本部分旨在研究图像融合对下游视觉任务的影响。我们评估了融合结果在多模态语义分割( MMSS )任务和多模态目标检测( MMOD )任务中的表现。为了保证公平性,我们针对每个任务分别使用各自方法得到的融合结果重新训练网络。由于篇幅限制,视觉比较放在补充材料中。
红外-可见光目标检测。MMOD任务是在M3FD数据集[ 21 ]上进行的,该数据集包括4200张图像,包含六类标签:人、汽车、公交车、摩托车、卡车和灯具。我们将M3FD数据集按照8:1:1的比例划分为训练集、验证集和测试集。YOLOv5检测器[ 14 ]使用SGD优化器训练400个历元。批大小为8,初始学习为0.01。我们通过比较m AP @ 0.5来评估检测性能。表2 . 3表明,EMMA表现出最优异的探测能力,通过融合热辐射和RGB信息提高了探测精度,并强调了难以探测的物体。
红外-可见光语义分割。MSRS数据集[ 34 ]是为MMSS任务设计的,包含九类像素级别的标签:背景、凹凸、色锥、护栏、弯道、自行车、行人、停车场和汽车。我们选择DeeplabV3 + [ 5 ]作为分割网络,并通过交并比( IoU )来评估性能。训练集和测试集的划分遵循原始数据集论文中的协议[ 34 ]。我们使用了交叉熵损失和SGD优化器。前100个历元被冻结时,总历元数为340个。批大小和初始学习率分别设置为8和7e - 3,学习率随着迭代次数的增加遵循余弦退火延迟。
4.3. 医学图像融合
Set up 我们通过哈佛医学数据集[ 9 ]进行了MIF实验,其中包括50对MRI - CT / MRI-PET / MRI - SPECT图像。我们直接将在IVF任务上训练的模型泛化到MIF任务上,而不需要微调。使用的定量指标与IVF任务中使用的指标相同。
5. Conclusion
本文通过使用一个概念简单但有效的先验来解决图像融合中缺乏真实信息的问题,即自然成像响应对平移、旋转和反射等平移具有等变性。在此基础上,我们提出了一种称为等变图像融合的自监督范式,它通过考虑自然成像的原理来调整损失函数的固有模式,使其模拟传感-成像过程。我们还介绍了一个使用Restormer - CNN模块作为基本单元的类U - Net融合模块,以促进全局-局部特征提取和高效的信息融合。实验结果证实了我们提出的方法在多模态图像融合中的有效性,以及它有利于多模态分割和检测等下游任务的倾向。