本文是一篇基于Transformer的VIF,对于CNN-based的方法的介绍也是提到了,CNN以一个固定的卷积核捕获局部信息,堆叠卷积层用于特征提取,但这样会损失细节和背景信息。
提出的cross-modal transformer在空间域和通道域实现了信息的交互,去除了IR和VIS的冗余信息。
实验表明,性能达到了SOTA,同时,也用于下游任务。
本文所引用的块:
RFDB出自Residual feature distillation network for lightweight image super-resolution
gated bottleneck出自Attention bottlenecks for multimodal fusion
SFC出自Self-fusion convolutional neural networks,
1.引言和贡献
- 提到了transformer的长距离建模的优势,现在的基于transformer的缺点就是计算成本高,对于高分辨率图像不太实际
- 设计了一个gated bottleneck(引用别人的)整合跨领域的交互信息
2.Motivation:
仅仅使用transformer捕获了全局交互信息,但缺少了局部元素的交互,虽然已经有了一些CNN和transformer结合的工作,但计算成本太高。因此我们致力于减少参数量。
3.网络结构
首先把VIS和IR分别经过几个3×3的卷积层,提取多层特征,然后送入Refinement branch,在这个模块中,进行信息的整合
3.1 Refinement branch
由好几个块组成。
首先是,把L层的VIS和IR特征图分别和 L+1层的特征concat,同样先conv下,在进入RFDB,以学习到更具判别性的特征,然后经过CMT模块去除冗余信息