【红外与可见光图像融合】Rethinking Cross-Attention for Infrared and Visible Image Fusion

yeager415

已于 2024-04-19 16:45:45 修改

阅读量4.9k

点赞数 57

文章标签：人工智能图像处理深度学习

于 2024-03-06 11:36:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/learnererer/article/details/136488045

版权

本文的角度也很新奇，之前的transformer倾向于提取两种图像的共同信息，忽视了差异信息。我们提出的DIIM通过修改了Cross-attention，提取了差异信息。之前的Pixel损失要么使用了最大值抑制，要么是平均值抑制，我们提出了一个新的Pixel损失，可以很好的保持互补信息。
代码未公开====================已公开Code
来自arXiv预印本。

1、Motivation

现有的注意力机制关注共同信息，忽视了差异信息的提取和利用。
单个Transformer不能完全的提取共同信息，（VIS图像更具纹理细节，而IR图像只是目标比较显著，有什么共同信息呢？）
以上减少了融合的效率
现有的pixel损失要么采用一个最大，要么是权重平均，来引导融合过程，这没有有效地保持完全的信息。

我们的贡献：

提出了差异信息注入模块DIIIM（基于交叉注意力机制），分别提取了原图独特的特征。
提出了交替的共同信息注入模块ACIIM，在最终结果中保持了共同信息。
提出了分割元素损失，使得网络在保持纹理细节信息和亮度信息之间达到了好的平衡。

2、网络结构

作者这里使用了HardSwish作为激活函数，
在这里插入图片描述
特征提取阶段，作者引用了《Early convolutions help transformers see better》，于是设计了几个卷积块，将VIS和IR分开提取特征，
DIIM：

通过点乘，我们获得了IR和VIS相关联的特征，再用IR图像的V把最相关的部分减去，就得到了差异信息
这里的减法，

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。