【红外与可见光图像融合】MFST: Multi-Modal Feature Self-Adaptive Transformer for Infrared and Visible

本文介绍了一种新型的红外与可见光图像融合方法MFST,通过引入聚焦自注意力和自适应融合策略,有效利用多模态特征。文章探讨了损失函数的设计,并展示了在多个数据集上的有效性,尽管存在一些改进空间,但方法在融合质量和效率上优于现有方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

没有代码
整体框架就是改进了RFN-Nest中间的融合模块,把当年对ViT的一个新改进的方法拿来用了。
使用了很多损失,但个人觉得损失的权重系数的计算不是很好。

1、Motivation

  1. 现有的融合策略太简单没有利用特征信息
  2. 基于CNN的方法仅考虑到了局部,没有考虑到全局上下文信息。
  3. 端到端的方法缺少明显的特征提取步骤。

本文贡献为:

  1. 引进了聚焦自注意力(focal self-attention,就是一个对transformer的改进,作者拿过来用了)
  2. 有效地利用多模态特征,设计了一个自适应的融合策略,该策略是根据特征提取器不同层不同的特征设计的。
  3. 实验表明我们的方法大多数sota要好。

二、网络结构

在这里插入图片描述
每个EB,由两个卷积层和一个ReLU和maxpooling。
中间的融合层:
在这里插入图片描述
在这里插入图片描述

三、损失

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值