【红外与可见光图像融合】Cross-Modal Transformers for Infrared and Visible Image Fusion

本文是一篇基于Transformer的VIF,对于CNN-based的方法的介绍也是提到了,CNN以一个固定的卷积核捕获局部信息,堆叠卷积层用于特征提取,但这样会损失细节和背景信息。
提出的cross-modal transformer在空间域和通道域实现了信息的交互,去除了IR和VIS的冗余信息。
实验表明,性能达到了SOTA,同时,也用于下游任务。

本文所引用的块:
RFDB出自Residual feature distillation network for lightweight image super-resolution
gated bottleneck出自Attention bottlenecks for multimodal fusion
SFC出自Self-fusion convolutional neural networks,

1.引言和贡献

  1. 提到了transformer的长距离建模的优势,现在的基于transformer的缺点就是计算成本高,对于高分辨率图像不太实际
  2. 设计了一个gated bottleneck(引用别人的)整合跨领域的交互信息

2.Motivation:

仅仅使用transformer捕获了全局交互信息,但缺少了局部元素的交互,虽然已经有了一些CNN和transformer结合的工作,但计算成本太高。因此我们致力于减少参数量。

3.网络结构

在这里插入图片描述
首先把VIS和IR分别经过几个3×3的卷积层,提取多层特征,然后送入Refinement branch,在这个模块中,进行信息的整合

3.1 Refinement branch

由好几个块组成。

首先是,把L层的VIS和IR特征图分别和 L+1层的特征concat,同样先conv下,在进入RFDB,以学习到更具判别性的特征,然后经过CMT模块去除冗余信息࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值