【红外与可见光图像融合】Rethinking Cross-Attention for Infrared and Visible Image Fusion

本文的角度也很新奇,之前的transformer倾向于提取两种图像的共同信息,忽视了差异信息。我们提出的DIIM通过修改了Cross-attention,提取了差异信息。之前的Pixel损失要么使用了最大值抑制,要么是平均值抑制,我们提出了一个新的Pixel损失,可以很好的保持互补信息。
代码未公开====================已公开Code
来自arXiv预印本。

1、Motivation

  1. 现有的注意力机制关注共同信息,忽视了差异信息的提取和利用。

  2. 单个Transformer不能完全的提取共同信息,(VIS图像更具纹理细节,而IR图像只是目标比较显著,有什么共同信息呢?)
    以上减少了融合的效率

  3. 现有的pixel损失要么采用一个最大,要么是权重平均,来引导融合过程,这没有有效地保持完全的信息。

我们的贡献:

  1. 提出了差异信息注入模块DIIIM(基于交叉注意力机制),分别提取了原图独特的特征。
  2. 提出了交替的共同信息注入模块ACIIM,在最终结果中保持了共同信息。
  3. 提出了分割元素损失,使得网络在保持纹理细节信息和亮度信息之间达到了好的平衡。

2、网络结构在这里插入图片描述

作者这里使用了HardSwish作为激活函数,
在这里插入图片描述
特征提取阶段,作者引用了《Early convolutions help transformers see better》,于是设计了几个卷积块,将VIS和IR分开提取特征,
DIIM:
在这里插入图片描述
在这里插入图片描述
通过点乘,我们获得了IR和VIS相关联的特征,再用IR图像的V把最相关的部分减去,就得到了差异信息
这里的减法,
在这里插入图片描述
作者可视化分析了这种改进得到的特征图
在这里插入图片描述
特征图表明,利用普通交叉注意机制的信息注入模块只能合并来自两个图像的公共信息,而缺乏跨不同模态集成差异信息的能力。因此,最终输出的特征映射主要包含来自一幅图像的信息,而缺乏来自另一幅图像的模态特定细节,使其不适合多模态图像融合任务。相反,我们的DIIM显著地弥补了这一缺陷。

ACIIM:
在这里插入图片描述

3、损失

在这里插入图片描述
纹理细节损失

作者说基于最大值选择的元素损失会减弱一些元素的重要性,基于平均元素损失可能降低融合结果的显著性。

首先定义了像素的重要性在这里插入图片描述
然后基于上述公式,将每个像素分为两部分
在这里插入图片描述
在这里插入图片描述
对第一部分使用基于最大值选择的损失,第二部分使用基于元素平均损失。
作者后续对α的值进行了消融实验,特别地
α=100时,part1相当于包含了top100%的元素,pixel损失项只有第一项,本质是基于最大值选择的抑制。
α=0时,part1相当于包含了top0%的元素,pixel损失项只有第二项,本质是元素平均的抑制。
α=50时,均分了part1和part2。

4、实验结果

本文选择的训练数据集是RoadScene和MSRS,对比了两个Transformer-based的方法,23年的DATFuse和22年的SwinFusion。

4.1 客观指标

客观指标的选择上,EN,SD是常用的,还选择了Average gradient (AG),Spatial frequency (SF ),Visual information fidelity(VIFF)、Qabf

AG measures the sharpness or clarity of an image.
EN is an objective measure of the amount of information contained in an image.
SD is a statistical theory-based standard deviation that reflects the degree of change in pixel brightness.
SF is a measure based on gradient distribution, which represents the rate of change of the grayscale of the fused image.
V IF F measures the quality of the fusion image according to visual information fidelity.
Qabf is a non-reference quality evaluation index by estimating the degree of salient information from source images represented in the fused image. Higher values of these metrics correspond to better quality of the fused image.

4.2 Roadscene数据集上的实验结果

作者说,没有使用transformer的结果没有足够的细节信息和显著性目标的信息,得益于Transformer的全局信息建模优势。

下图从左到右分别是IR,VIS,DATFuse,our的结果

在这里插入图片描述
在这里插入图片描述
作者说,上图的绿框和下图的红框,DATFuse is relatively worse since it fails to extract distinctive information from the infrared image
在我看来,没什么很大差别,只是our的结果对比度更好一点,在这里插入图片描述
上图是DenseFuse的结果,人物稍显模糊,但是云彩细节甚至比DATFuse还要好。

在这里插入图片描述
在这里插入图片描述
只能看出我们的结果更偏向红外一点。
在这里插入图片描述
在这里插入图片描述

SwinFusion method shows poor performance when processing low-saliency but information-rich regions (see the red box in the fourth row and the green box in the fifth row)
作者解释说:一个可能的原因是,SwinFusion的像素损失使得融合结果的像素完全趋向于源图像的最大值,忽略了较低像素值的信息

  • 补充一下SwinFusion用到的pixel损失

我们的ATFuse保留了所有结果中的显著信息,这是因为我们提出的ATFuse采用了DIIM和ACIIM模块,可以生成包含各种类型信息的结果。此外,分割的像素损失函数使我们的方法能够更好地平衡细节信息和显著信息的保留。
在这里插入图片描述
在这里插入图片描述

4.3 MSRS数据集上的结果

MSRS数据集是RGB的可见光图像。
在这里插入图片描述
对于SwinFusion的缺陷描述同上,

SwinFusion seems to have richer details and brightness information. However, it loses some details from the infrared images, since this method utilizes a pixel maximum constraint loss for each pixel.
在这里插入图片描述
而我们的结果达到了更好的Tradeoff。
在这里插入图片描述

4.4 在TNO数据集上的测试实验

在这里插入图片描述

5.消融实验

5.1 提出的模块的消融

在这里插入图片描述
没有DIIM,结果只包含来自VIS的细节信息,IR的显著性目标没有很好的保持。见第一行的车中间的H标志。
在这里插入图片描述

在这里插入图片描述

没有DIIM应该是这种结构吧,还是说把这里的DIIM也换成了ACIIM?

5.2 提出的新的Pixel损失的消融

在这里插入图片描述
α=0时,公式16本质是元素平均限制,结果缺乏亮度信息
随着α增大,信息丢失程度增加,这是因为更多的元素被最大值抑制了。

在这里插入图片描述
在这里插入图片描述

5.3一些其他设置

损失中平衡系数:

在这里插入图片描述

融合模块的数量:

在这里插入图片描述
在这里插入图片描述

计算效率

在这里插入图片描述

U2Fusion的效率最高,而我们的方法和DenseFuse都排名第二。这是因为我们的ATFuse方法在交替提取公共信息时消耗了时间。在所有的聚变方法中,很明显,我们的ATFuse在聚变性能和运行速度方面是强大的,相对轻量级的。

  • 54
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值