Breaking Free from Fusion Rule/ A Fully Semantic-driven Infrared and Visible Image Fusion

1.摘要

红外和可见光图像融合在计算机视觉领域中起着重要作用。先前的方法努力在损失函数中设计各种融合规则。然而,这些实验设计的融合规则使方法变得越来越复杂。此外,它们大多只关注提升视觉效果,因此在后续的高级视觉任务中表现不尽如人意。为了解决这些挑战,在本文中,我们开发了一个语义级融合网络,充分利用语义引导,摆脱了实验设计的融合规则。此外,为了更好地理解特征融合过程的语义,我们以多尺度方式提出了一个基于Transformer的融合块。此外,我们设计了一个正则化损失函数,结合训练策略,充分利用高级视觉任务中的语义引导。与最先进的方法相比,我们的方法不依赖于手工设计的融合损失函数。尽管如此,在视觉质量以及后续的高级视觉任务方面,它仍然取得了卓越的性能。

2.引言

在本文中,我们提出了一个通用的语义驱动学习范式,用于研究特定任务的图像融合,而不是为IVIF显式构建融合规则。

我们可以粗略地将当前的学习方案分为两类:基于融合规则的方法和端到端的学习方案

具体而言,第一类融合方法依赖于手动设计的规则来近似地聚合模态特征。这些方法首先利用自动编码器机制提取和重构多模态特征,以充分学习显著的特征提取。然后,它们开发各种特征融合的融合规则,例如加权平均、求和、最大选择和L1范数。例如,Li等人首次将密集块作为可学习的自动编码器,并采用加权平均策略来融合模态特征。此后,Li等人3还提供了空间/通道注意机制作为融合策略,以嵌套连接融合特征。随后,Liu等人引入边缘注意引导的自动编码器来提取特征并采用简单的融合规则。

我们可以明显地观察到,当前的方法依赖于适当的融合策略来指导特征融合。然而,这些融合策略对不同数据分布不敏感,容易引发视觉伪影和模糊。更重要的是,融合策略的手动设计过于脆弱,无法保留适合支持后续高级视觉任务的合适模态特性。

与手动设计的融合规则不同,端到端的学习方法旨在直接建立源图像与融合图像之间的连接。具体而言,架构和损失函数是这些方法的两个具有挑战性的障碍。现有方法侧重于基于当前有效实践设计架构,而不考虑融合任务的特定属性。 虽然获得了可以获得显著统计指标的视觉吸引力结果。这些损失函数结合训练策略使方法变得更加复杂。此外,这些架构不能有效地提取模态特性,受卷积网络的局部感知能力限制。我们认为,这两种类别的方法都是为了提高融合的视觉质量,而忽略了后续语义任务的需求。

为了部分缓解这些问题,在本文中,我们提出了一种语义驱动的融合方法。我们不仅将图像融合视为一个独立的任务,还充分利用高级语义任务的引导,以保留有益信息并减少冲突。这样,我们的融合结果不仅突出了全面的信息,还有助于后续的语义任务。具体而言,我们首先提出了一个带有自注意机制的多尺度融合网络,以充分聚合模态特征。多尺度提取可以有效地从场景结构到上下文细节以粗到细的方式组合特征。自注意机制是建立多模态特征的长程依赖性,更好地描绘显著目标的全局表示。然后,我们引入相关的正则化来描述源图像与融合图像之间的关系。基于此,我们仅利用高级视觉任务的标准来训练融合和高级网络。

因此,这种策略解放了实验设计的融合规则,摒弃了模态统计指标的限制,并显著提高了高级视觉任务的性能。我们总结核心贡献如下:

  • 提出了基于多尺度自注意机制的图像融合网络,以粗到细的方式有效地表示全局结构。
  • 引入相关正则化,提出了一个完全语义驱动的训练策略,摆脱了手工设计的融合规则。

3.方法

3.1 网络架构

我们采用了来自下图的多尺度机制,分别处理纹理细节和语义信息。如图1所示,我们使用下采样(即最大池化)操作获取不同分辨率的特征图。其中,浅层特征图包含更多的纹理信息,而深层特征图则包含更多的语义信息。

另一方面,为了融合提取的跨模态特征图,我们设计了一个基于高效自注意力的通用融合块。如图1底部所示,融合块由两个自注意模块组成,可以捕捉和强化全局感受野中的有用组件。在自注意模块中,我们将 R H × W × C R^{H×W×C} RH×W×C的特征图重塑为 R N × C R^{N×C} RN×C的向量,其中N = H×W。然后,我们使用线性层将向量编码为查询Q、键K和值V。我们通过矩阵乘法 K T V K^TV KTV得到注意力图,然后通过 Q S o f t m a x ( K T V ) QSoftmax(K^TV) QSoftmax(KTV)获得最终的注意力结果。强化的组件是通过逐元素相乘注意力结果和输入特征图获得的。为保留细节信息,我们进一步引入了残差连接。

3.2 训练策略

现有的端到端深度学习方法专注于设计融合规则以获得视觉上令人满意的结果。然而,手工设计的融合规则在场景方面存在严重限制,无法满足后续语义任务的基本要求。为了解决这个问题,我们开发了一种以语义为驱动的训练策略,以摆脱手动设计的限制。

1)热启动阶段:同时训练融合和分割网络是一种直观的策略。然而,在训练开始时,融合模型的参数是随机初始化的,因此无法为分割网络提供有意义的融合图像进行处理。因此,训练过程偏离了我们的预期。

为了解决这个问题,我们使用了一种平均策略来预训练融合模型,以获得可塑性的初始化。这个学习过程可以表示为:

m i n θ L W S ( N F ( I v i s , I i r ; θ ) ) , ( 1 ) \underset{θ}{min}L_{WS} (N_F (I_{vis}, I_{ir}; θ)),\quad (1) θminLWS(NF(Ivis,Iir;θ))(1)

其中 N F N_F NF是具有可学习参数θ的融合网络, I i r 和 I v i s I_{ir}和I_{vis} IirIvis分别表示红外图像和可见光图像。在这个阶段结束后,我们获得了θ,它可以将源图像融合成相当平均且有意义的结果,供下一个训练过程使用。

2)语义训练阶段:在这个阶段,我们通过与分割网络联合训练来微调融合网络,可以表示为:

m i n θ , ω L S T ( N S ( N F ( I v i s , I i r ; θ ’ ) ; ω ) ) , ( 2 ) \underset{θ,\omega}{min}L_{ST}(N_S (N_F (I_{vis}, I_{ir}; θ’);\omega)),\quad (2) θ,ωminLST(NS(NF(Ivis,Iir;θ);ω))(2)

其中 N S N_S NS是具有可学习参数ω的语义分割网络。语义分割任务将学习调整红外和可见光成分的比例,使其远离平均融合状态。

值得注意的是,没有额外约束的融合模型是不稳定的,会导致分割性能下降。为了缓解这个问题,我们设计了一个辅助正则化损失函数,来约束融合模型利用广泛的语义指导。

3.3 损失函数

1)热启动损失函数:热启动融合损失函数可以表示为: L W S = 1 / ( H W ) ∣ ∣ I f − I i r + I v i s 2 ∣ ∣ 1 , L_{WS} = 1/(HW) ||I_f -\frac{I_{ir} + I_{vis}}{2}||_1, LWS=1/(HW)∣∣If2Iir+Ivis1其中H和W分别表示源图像的高度和宽度, I f I_f If表示融合后的图像, ∣ ∣ ⋅ ∣ ∣ 1 ||·||_1 ∣∣1表示计算L1范数。

2)语义训练损失函数:在语义训练阶段,我们使用以下语义训练损失函数: L S T = L s e m + λ L r e g , L_{ST} = L_{sem} + λL_{reg}, LST=Lsem+λLreg其中 L s e m L_{sem} Lsem是常用的交叉熵损失函数, L r e g L_{reg} Lreg是正则化项。λ用于平衡这两个项的权重。我们定义正则化损失函数如下: L r e g = 1 / ( C o r r ( I i r , I f ) + C o r r ( I v i s , I f ) ) , L_{reg} = 1/(Corr(I_{ir}, I_f) + Corr(I_{vis}, I_f)), Lreg=1/(Corr(Iir,If)+Corr(Ivis,If)) 其中Corr(·)表示计算两个图像张量的相关性。

4.实验

4.1 融合结果

如图2所示,我们可以看到我们的方法能够灵活地保留丰富和有用的纹理细节,成功地突出了多样的恶劣环境中的重要目标。例如,我们的方法中的人物具有更清晰的边缘,因此能够从背景中脱颖而出,这对后续的分割任务将非常有帮助。

在定量比较方面,如图3所示,我们的方法在常用的统计评估指标空间频率(SF)和平均梯度(AG)方面优于其他方法。这表明我们的结果具有更丰富的信息,包含更多细节和高对比度。

4.2 语义结果

我们还从语义分割的角度评估融合质量。我们使用所有比较方法生成的融合图像对同一分割网络(SegFormer-b0)进行了从头训练。如图4所示,我们的方法生成的分割模型可以提供更准确的结果,例如自行车。相比之下,其他方法由于强烈的光晕干扰无法准确估计汽车的形状。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MCHsGj9t-1692068386498)(/Users/zhangkai/Library/Application Support/typora-user-images/image-20230815100254109.png)]

如表I所示,我们的方法在mAcc和mIoU上得到了最高分,表明我们的方法可以智能地保留不同语义类别的有用信息。由于其他方法信息失真的问题,它们无法获得几乎所有类别的相同准确性。

4.3 消融实验

1)分析融合模块:我们进行了一些实验,包括移除自注意力模块(w/o SLA),用通道注意力(CHA)和空间注意力(SPA)替代它。如图5所示,我们融合结果中的人物更加自然和显眼,这也得到了表II中分割结果的验证。

2)分析热启动和正则化损失:我们还提供了另一种热启动方式,即 L W S = 1 / ( H W ) ∣ ∣ I f − m a x ( I i r , I v i s ) ∣ ∣ 1 L_{WS} = 1/(HW) ||I_f - max(I_{ir}, I_{vis})||_1 LWS=1/(HW)∣∣Ifmax(Iir,Ivis)1,其中max(·)表示逐元素的最大选择。热启动和语义训练后的融合结果分别表示为"Max"和"Max-ST"。我们提出的方法的相应结果表示为"Ave"和"Ave-ST"。如图6所示,(b)无法抑制光晕,©无法突出行人。

经过语义训练阶段后,它们克服了这些问题(即(d)和(e))。如表II所示,最大选择融合规则提供了更好的初始化,以保留行人和汽车。但它无法处理其他类别,如停车标志。这表明平均融合规则可以提供更具可塑性的初始化。此外,我们还进行了一些实验,包括移除热启动阶段(w/o WS)和移除正则化项(w/o Lreg)。如表II所示,如果没有这些策略,分割结果会下降。

3)分析语义损失的影响:我们进行了一些实验,移除了一些类别,例如车辆类别(w/o Car),人类别(w/o Person)以及两者同时移除(w/o Car&Person)。我们还进行了一项实验,移除了语义损失(w/o Lsem)。如图7所示,语义损失使行人和车辆从背景中突出显示,如图©所示。人类别的影响比车辆类别更显著。这是因为在MFNet中,行人的数量比车辆多。值得注意的是,图(b)与图(d)完全相同,这意味着除了行人和车辆类别之外的其他类别的红外信息对分割任务的贡献较小。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值