【红外与可见光图像融合】Cross-Modal Transformers for Infrared and Visible Image Fusion

本文是一篇基于Transformer的VIF,对于CNN-based的方法的介绍也是提到了,CNN以一个固定的卷积核捕获局部信息,堆叠卷积层用于特征提取,但这样会损失细节和背景信息。
提出的cross-modal transformer在空间域和通道域实现了信息的交互,去除了IR和VIS的冗余信息。
实验表明,性能达到了SOTA,同时,也用于下游任务。

本文所引用的块:
RFDB出自Residual feature distillation network for lightweight image super-resolution
gated bottleneck出自Attention bottlenecks for multimodal fusion
SFC出自Self-fusion convolutional neural networks,

1.引言和贡献

  1. 提到了transformer的长距离建模的优势,现在的基于transformer的缺点就是计算成本高,对于高分辨率图像不太实际
  2. 设计了一个gated bottleneck(引用别人的)整合跨领域的交互信息

2.Motivation:

仅仅使用transformer捕获了全局交互信息,但缺少了局部元素的交互,虽然已经有了一些CNN和transformer结合的工作,但计算成本太高。因此我们致力于减少参数量。

3.网络结构

在这里插入图片描述
首先把VIS和IR分别经过几个3×3的卷积层,提取多层特征,然后送入Refinement branch,在这个模块中,进行信息的整合

3.1 Refinement branch

由好几个块组成。

首先是,把L层的VIS和IR特征图分别和 L+1层的特征concat,同样先conv下,在进入RFDB,以学习到更具判别性的特征,然后经过CMT模块去除冗余信息,最后在各自层分别得到融合结果。

注:L+1层的特征图经过上采样与L层的特征concat。

3.2 CMT

不仅要在单幅图进行全局交互,VIS和IR图像的全局交互也很重要。同时,现有的Transformer-based method都是只在空间域使用transformer,我们在通道域也使用了transformer。综合使用,以期从源图像中提取互补特征

在这里插入图片描述
空间域上:作者这么里学到的注意力图是在这里插入图片描述
使用了减法,最终得到的是不相关性图,全篇也一直在使用去除冗余信息的字眼,大概就是这个意思吧。
这里注意力图维度是HW×1,然后再reshape成H×W×1,原特征图是H×W×C,再逐元素相乘,相当于拿一张注意力图去×C个通道的特征图,这远远不够,因此有了后面与通道域的交互。

通道域同理。

在通道域和空间域分别去除完冗余信息后,作者说independent transformers may fail to effectively extract complementary information in a scene.然后又引用了其他人的工作,based on the observation that the information bottleneck can effectively exchange cross-modal information提出了gated bottleneck
在这里插入图片描述
实现了信息的交互

3.3 fusion block

这里作者又说,可以直接的conv重建,但是这样可能没有捕获refined feature maps的交互信息,又使用了其他人的工作SFC
在这里插入图片描述
每一层特征分别得到一个融合结果

4.损失

在这里插入图片描述
第一项:
在这里插入图片描述
逐元素,两个参数是固定的,不可学习

第二项:
在这里插入图片描述
为了保持空间特征,使用了一篇低光图像里的损失
《Learning to enhance low-light image via zero-reference deep curve estimation》
第三项:

在这里插入图片描述
感知损失,使用VGG-16提取的特征,分别在2.4.6层提取特征

第四项:
在这里插入图片描述
在这里插入图片描述

为了保持高频信息和纹理细节,使用了傅里叶,出自
《Fourier features let networks learn high frequency functions in low dimensional domains》

5.实验结果和消融实验

所有的平衡vis和ir特征占比的超参都设置为0.5

5.1 特征层级的消融

在这里插入图片描述

5.2 CMTs的消融

在这里插入图片描述
在综合使用空间域和通道域transformer后,进一步使用gated bottleneck得到了更好的结果,这说明GB通过跨领域的信息交互增强了特征表示。

5.3重建块的消融

在这里插入图片描述
SFC参数量少,同时获得了最好的效果。
这里的MBConv出自EfficientNetv2: Smaller models and faster training

5.4损失的消融

在这里插入图片描述
加入感知损失后,使得模型保留了高级的上下文信息。
加入频率损失后,使得模型减轻了原图像和融合图像的差异。

对于感知损失,使用VGG-16比19更好,作者解释说,VGG-19 degrades the fusion performance because it focuses on global semantic representation rather than local features.

从VGG第2,4,6层提取特征用于计算损失,这边没有进行说明。

6.运行时间和参数量比较

These results indicate that the proposed algorithm provides a superior performance-complexity trade-off to that of conventional algorithms
在这里插入图片描述
在这里插入图片描述

7.用于下游任务

7.1 目标检测

在这里插入图片描述
Specifically, the proposed algorithm yields 5.39 and 5.96 higher mAP values than the second-best algorithms DDcGAN and U2Fusion on KAIST and RoadScene, respectively. Finally, it should be noted that only the fusion results of the proposed algorithm show higher mAP values than the visible images on both datasets

7.2 单目深度估计评价

在这里插入图片描述
This indicates that the proposed algorithm has great potential to improve subsequent computer vision performance.

8.用于RGB图像

在这里插入图片描述
作者说在这里插入图片描述

9. 缺陷

作者说在这里插入图片描述
在这里插入图片描述
很多算法在这种图上的效果应该都不算太好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值