【红外与可见光图像融合】DATFusion:DATFuse: Infrared and Visible Image Fusion via Dual Attention Transformer

本文探讨了基于CNN和Transformer的融合模型,如SwinFusion和PPTFusion,通过对比分析,提出了一种结合空间和通道注意力的DARM块。实验结果显示,该方法在保持热辐射信息和细节处理上优于竞品。文章还讨论了动态场景下图像融合的挑战和未来研究方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于CNN和transformer,空间和通道注意力。

对比了两个基于transformer的方法,SwinFusion(通用融合框架)和一个2022年还没中稿的arxiv的一片PPTFusion。

代码公开,实验丰富。

根据主观图结合作者的分析,尝试思考其他方法的缺陷是什么原因?

1、Motivation

现有深度融合模型的关键部分是卷积运算,卷积运算擅长捕捉局部特征,但不能表示源图像的长期依赖关系,导致一些重要的全局上下文信息提取不足。

互补信息利用是影响融合性能的关键因素,信息丢失是灾难性的

设计一个end-to-end,想利用transformer的长距离建模优势。

2、网络结构

设计了一个DARM块和TRM块

DARM就是综合使用了空间注意力和通道注意力提取特征,TRM就是使用的SwinTransformer的思想。然后对排列顺序做了消融实验,结果显示当前的D-T-T-D是效果最好的。

作者的解释是说,第一个DARM,关注重要的特征,第二个最后用来获取高级语义特征。

3、损失

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值