【红外可见光融合】CrossFuse: A novel cross attention mechanism based infrared andvisibleimage fusion approach

本文指出,多图像融合任务的结果应尽量包含更多的互补信息和更少的冗余信息,互补信息很难提取,VIS和IR图像存在较大的差距,尤其更难提取。
常见的交叉注意力仅仅考虑相关性,图像融合任务需要关注互补信息(不相关性)–这一点【】也提到了,也是那篇文章的出发点。但是这两篇文章对于不相关信息的提取有区别。
因此,我们提出了cross attention mechanism (CAM),增强互补信息。
两阶段训练策略,auto-encoder,然后固定住encoder,再训练CAM和decoder。
设计了新的损失函数,RGB可见光做了实验,选取的主流客观指标,达到了SOTA。
选自Information fusion,代码即将公开。

1、Motivation

  1. 之前的方法主要集中在自我注意力机制上,而忽略了各种模式之间的相互作用。然而,不同模态之间的互补信息是多模态融合任务的关键,因此交叉注意力应得到更多的重视。
  2. TR要么只在特征提取阶段使用,要么只在重建阶段使用。即使在融合阶段使用了TR,没有解决关键问题,即self-attention可能降低互补信息的问题。
  3. 也有一些文章把cross-attention和transformer结合,但他们还是仅仅只关注到了相关性,忽视了互补信息。

在这里插入图片描述

基于transformer的方法只聚焦自注意力机制,这是transformer的主要组成部分。这种机制虽然可以提高输入之间的相关性,但也可能减少互补信息。

作者说,在特定情况下,错误地处理特征相关性可能导致融合性能下降,因此我们提出CAM,

CAM employs self-attention to enhance the intra-features of each modality while utilizes cross-attention based architecture to enhance the inter-features (complementary information) between different modalities.

intra-features 和 inter-features这两个表达应该是学习的SwinFusion里的表达,就是通过self-attention增强单模态内部的相关性,通过cross-attention增强多模态之间的互补信息融合,减少冗余信息。

2、网络结构

在这里插入图片描述

2.1 encoder结构

本文使用的是两阶段训练策略,作者说,考虑到两种模态(红外和可见光)之间的差距,提取不同参数的特征是很自然的。
用于VIS和IR的encoder具有相同的结构但具有不同的参数,就是分两个之路分别提取特征。

在这里插入图片描述
作者说,为了增强细节信息和显著性特征,使用了两个跳跃连接到decoder。

2.2 CAM的结构

在这里插入图片描述
这里使用self-attention的时侯,也是两个分支,分别进一步提取特征。第一个SA用来增强域内特征。
为了进一步增强域内特征,在CAM中还引入了移位shift操作,将特征的位置进行水平和垂直移动。这个shift思想应该是借鉴SwinFusion的思想。
然后第二个SA用来增强shift后的特征图,shift之后的特征图含有更多的全局信息
之后unshift操作,再使用CA进行跨领域的信息交互。
SA的公式:
在这里插入图片描述
CA的公式:
在这里插入图片描述
SA和CA的主要区别在于,在矩阵相乘后的激活函数。对于不同的模态,应该增强互补(不相关)信息而不是冗余(相关)特征。因此,我们将一个新的激活函数,反向softmax(𝑟𝑒-𝑠𝑜𝑓𝑡𝑚𝑎x)嵌入到交叉注意机制中,其公式如下:
在这里插入图片描述
在这里插入图片描述

2.3 Decoder的结构

在这里插入图片描述
在这里插入图片描述
与encoder的跳跃连接,作者说深层特征连接的是显著特征,浅层连接的是细节信息。
不知道指的是哪个
我理解的是外侧的紫线指的是深层,因为跟encoder的浅层进行连接,来增强显著特征。
作者说:将特征强度感知策略应用到解码器中,实现多层次特征融合
在这里插入图片描述
这里公式5,先平方再开根号,不就相当于绝对值嘛

  • 公式4的权重系数计算公式也还没看明白

在这里插入图片描述
对于内侧得橙色连接,应该就是作者说的浅层连接,这里第一项可以表示为作者说的由CAM提取得特征,

  • 可是紫线部分呢,CAM没有到那得连接,应该是经过decoder的几层卷积之后的特征?

3、两阶段的训练策略

3.1首先训练encoders

在这里插入图片描述
这时候的损失函数:
在这里插入图片描述
使用了一个二范数和一个SSIM损失

3.2 然后固定encoders训练CAM和decoder

在这里插入图片描述
损失函数为:在这里插入图片描述
强度损失,作者做了改进:
在这里插入图片描述
有的强度损失F分别减的两项,然后有一个超参控制各自比例,作者这里相当于设置了一个选择策略,每个像素点要么只有IR图像参与计算,要么只有VIS图像参与计算。使用了一个11by11的平均核,计算局部的VIS和IR的强度比例,如果平均核内,IR图像的平均强度更高,那么就由IR图像参与计算损失,反之。

这里说的强度信息主要聚焦光照和轮廓信息,因此利用梯度损失来确保细节损失可以被保留。
梯度损失,作者也做了改进。 换了写法而已。
在这里插入图片描述
这里max内部还要分别使用一个max(,0)是为了确保得到的结果是≥0的。这里算子的核为3×3,而且不是求的梯度,是用的平均核,作者说:核尺寸较小的均值滤波器可以提取出更高的鲁棒性特征和更多的细节信息。

4、消融实验

4.1 SA和CA块的数量的消融

在这里插入图片描述
这些结果之间的可视化性能仍然非常接近。因此,使用四个指标来评估性能。

在这里插入图片描述
综合客观和主观指标,我们选择只是用一次。

4.2 re-softmax和shift操作的影响

在这里插入图片描述
在这里插入图片描述
在缺少这两个关键操作的情况下,融合结果显示出细节的降低,并且显著目标的强度也降低了。客观指标也显示,移位操作有助于保存更详细的信息(En, SD)和增强互补特征(MI)。

4.3 CAM的影响

在这里插入图片描述
把中间的CAM替换成CNN和Dense net,
在这里插入图片描述
经过CAM之后,融合结果所包含的显著特征更多,伪影(背景)更少,融合后的图像更加自然。
作者又进行可视化分析了SA和CA的作用
在SA操作之后,如图12 (SA)所示,不仅保留了显著区域,而且在每个模态中也丰富了更精细的细节(背景)。
在这里插入图片描述

4.4 损失函数和融合策略的消融

在这里插入图片描述
作者说没有梯度损失,融合结果减少了细节信息。(看不出来/cry)
没有强度损失的话,显著目标没有突出,这在图像融合任务中是不可接受的。

在这里插入图片描述
热力图的计算是把特征图沿着通道维度求平均值。
作者对比了基于CNN的融合方式和直接相加的融合方式,基于CNN的融合方式展示出了冗余信息。
我们提出的CAM保持更多的结构信息,增强了显著性目标,同时放大了来自多模态的互补信息(红色框)

这些观察结果证实,我们提出的融合模块(CAM)在增强互补特征和结构信息方面表现出色,同时减少了冗余特征的存在。

4 .5 训练策略的消融

two-stage 就是本文所使用的
one-stage 就是 两个encoders CAM和decoder是用我们提出的损失一起训练的。
在这里插入图片描述
在相同的设置下,两阶段收敛更快,损失更小。

在这里插入图片描述

5、TNO数据集实验结果

在这里插入图片描述

在这里插入图片描述
与基于gan的方法(fusongan[21])、基于cnn的方法(IFCNN[32])和基于密集连接的方法(U2Fuison[30])相比,本文方法获得的融合图像包含了更多的细节信息(图15,黄色框)。
与基于Transformer的方法(YDTR[34]和DATFuse[42])和两种基于下游任务的方法(IRFS[35]和SemLA[60])相比,我们提出的方法可以生成更清晰的融合图像。
对于基于扩散模型的融合方法(DDFM[64]),该方法在TNO上获得了可比较的视觉结果。
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

分析一下作者没提到的:
作者这里没有对比上方的树,
在这里插入图片描述
在这个图里,可以看出左侧基于扩散模型的方法带来了伪影。
这种伪影的产生是否跟损失函数的设计有关呢?????
在这里插入图片描述
虽然DATFuse没有带来伪影,但直观看来,左侧整体较为亮,右侧图整体较暗。左侧玻璃也更清晰,但从右侧的门来看,CrossFuse的结果图对比度更高,中心的灯更亮,门框更暗。
客观指标对比:
在这里插入图片描述
在4个主流指标上,达到了SOTA

6、 在VOT-RGBT数据集上的结果

这也是个RGB的可见光图像,首先转换到YCrCb颜色空间。
在这里插入图片描述
在这里插入图片描述

7、总结

可能的研究方向是将额外的机器学习方法,如稀疏表示和度量学习,整合到交叉注意力机制中,以增强其效果。

  • 11
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值