本文的角度也很新奇,之前的transformer倾向于提取两种图像的共同信息,忽视了差异信息。我们提出的DIIM通过修改了Cross-attention,提取了差异信息。之前的Pixel损失要么使用了最大值抑制,要么是平均值抑制,我们提出了一个新的Pixel损失,可以很好的保持互补信息。
代码未公开====================已公开Code
来自arXiv预印本。
1、Motivation
-
现有的注意力机制关注共同信息,忽视了差异信息的提取和利用。
-
单个Transformer不能完全的提取共同信息,(VIS图像更具纹理细节,而IR图像只是目标比较显著,有什么共同信息呢?)
以上减少了融合的效率 -
现有的pixel损失要么采用一个最大,要么是权重平均,来引导融合过程,这没有有效地保持完全的信息。
我们的贡献:
- 提出了差异信息注入模块DIIIM(基于交叉注意力机制),分别提取了原图独特的特征。
- 提出了交替的共同信息注入模块ACIIM,在最终结果中保持了共同信息。
- 提出了分割元素损失,使得网络在保持纹理细节信息和亮度信息之间达到了好的平衡。
2、网络结构
作者这里使用了HardSwish作为激活函数,
特征提取阶段,作者引用了《Early convolutions help transformers see better》,于是设计了几个卷积块,将VIS和IR分开提取特征,
DIIM:
通过点乘,我们获得了IR和VIS相关联的特征,再用IR图像的V把最相关的部分减去,就得到了差异信息
这里的减法,