【红外与可见光图像融合】Rethinking Cross-Attention for Infrared and Visible Image Fusion

本文的角度也很新奇,之前的transformer倾向于提取两种图像的共同信息,忽视了差异信息。我们提出的DIIM通过修改了Cross-attention,提取了差异信息。之前的Pixel损失要么使用了最大值抑制,要么是平均值抑制,我们提出了一个新的Pixel损失,可以很好的保持互补信息。
代码未公开====================已公开Code
来自arXiv预印本。

1、Motivation

  1. 现有的注意力机制关注共同信息,忽视了差异信息的提取和利用。

  2. 单个Transformer不能完全的提取共同信息,(VIS图像更具纹理细节,而IR图像只是目标比较显著,有什么共同信息呢?)
    以上减少了融合的效率

  3. 现有的pixel损失要么采用一个最大,要么是权重平均,来引导融合过程,这没有有效地保持完全的信息。

我们的贡献:

  1. 提出了差异信息注入模块DIIIM(基于交叉注意力机制),分别提取了原图独特的特征。
  2. 提出了交替的共同信息注入模块ACIIM,在最终结果中保持了共同信息。
  3. 提出了分割元素损失,使得网络在保持纹理细节信息和亮度信息之间达到了好的平衡。

2、网络结构在这里插入图片描述

作者这里使用了HardSwish作为激活函数,
在这里插入图片描述
特征提取阶段,作者引用了《Early convolutions help transformers see better》,于是设计了几个卷积块,将VIS和IR分开提取特征,
DIIM:
在这里插入图片描述
在这里插入图片描述
通过点乘,我们获得了IR和VIS相关联的特征,再用IR图像的V把最相关的部分减去,就得到了差异信息
这里的减法,

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值