【红外与可见光图像融合】MFST: Multi-Modal Feature Self-Adaptive Transformer for Infrared and Visible

没有代码
整体框架就是改进了RFN-Nest中间的融合模块,把当年对ViT的一个新改进的方法拿来用了。
使用了很多损失,但个人觉得损失的权重系数的计算不是很好。

1、Motivation

  1. 现有的融合策略太简单没有利用特征信息
  2. 基于CNN的方法仅考虑到了局部,没有考虑到全局上下文信息。
  3. 端到端的方法缺少明显的特征提取步骤。

本文贡献为:

  1. 引进了聚焦自注意力(focal self-attention,就是一个对transformer的改进,作者拿过来用了)
  2. 有效地利用多模态特征,设计了一个自适应的融合策略,该策略是根据特征提取器不同层不同的特征设计的。
  3. 实验表明我们的方法大多数sota要好。

二、网络结构

在这里插入图片描述
每个EB,由两个卷积层和一个ReLU和maxpooling。
中间的融合层:
在这里插入图片描述
在这里插入图片描述

三、损失

在这里插入图片描述
作者这里分析了encoder部分提取的4层特征,指出浅层特征有丰富的细节,中间23层表征了结构信息,最后一层主要是区域特征。
(**作者没有说明这个可视化是怎么做的,为什么一开始的卷积层就获得全局信息呢? **)

然后作者在这分别设计了三项损失:
第一层:第一层有更多细节,因此在元素级别设置了元素细节损失为了保持细节纹理信息
在这里插入图片描述
第二三层:(结构相关性损失,保持轮廓边缘信息)
在这里插入图片描述
第四层:分辨率最低,前景和背景容易区分。因此设置了区域 特征损失
在这里插入图片描述
这里多了一项用于去噪的掩码:
在这里插入图片描述
以上都有一个共同的权重系数:
在这里插入图片描述
这里是矩阵的一范数,各元素绝对值,取列求和最大。真的有效吗?

二阶段训练时的总损失为:
在这里插入图片描述
作者说:VIS图像有明显易区分的结构,IR有噪声和模糊的结构?(IR结构模糊?不太合理
因此SSIM只使用了VIS。
在这里插入图片描述
这个上面提取的四层特征设置的损失,作者称之为自适应的融合策略。

为了保持IR的显著性目标,对IR使用了LC显著提取算法生成显著性图,然后正则化得到权重图,与IR和VIS加权。
在这里插入图片描述

四、训练

与RFN类似,两阶段训练。第一阶段的损失:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
可以看出,IR中亮的地方都保留到了融合结果中,不知道是哪个损失影响最大。

五、总结

本文提出了一种新的红外与可见光图像融合方法(MFST)。首先设计了自适应融合策略,以更有效地利用多模态特征的信息。然后,焦点自注意机制促使模型在融合过程中关注局部和全局信息。最后,引入显著性信息使融合结果能够保留红外图像的更多显著对象。使用三种不同的红外与可见光图像数据集验证了所提方法的有效性,结果表明我们的方法具有很强的泛化能力和很好地融合复杂场景的能力。通过与当前八种流行方法进行比较实验分析,表明本文方法的融合质量和融合效率优于这八种流行方法,证实了所提方法的优越性。
然而,所提方法在某些图像上不能表现最佳,这表明我们的模型仍有很大的改进空间。有几个关键问题值得进一步研究:
(1)是否有其他模态特征可以提取?
(2)如何减轻模型,使其能够融合更高分辨率的图像?
(3)选择其他FR-IQA指标作为损失函数的基础是否能提高结果的质量?
未来,我们将集中研究这些问题,改进和优化模型,并为这一研究主题做出进一步的贡献。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
YOLO多模态融合可以采用不同的融合方式,包括前端融合、后端融合和中间融合。前端融合是指将多个模态的输入直接融合成一个输入,然后输入到YOLO模型进行处理。后端融合是指在YOLO模型的输出阶段将多个模态的结果进行融合。中间融合是指在YOLO模型的中间层将多个模态的特征进行融合。 以前的研究主要集中在前融合和中间融合的方法,而较少探索后融合的可能性。后融合的优点是可以更好地解释融合结果,因为它不依赖于深度学习模型的特征提取过程。然而,后融合也存在一些问题,如模态融合过程的不稳定性和模态之间的相干性。在使用后融合的方法时,需要考虑如何合理地进行融合和决策,以及如何解释融合结果。 总结起来,YOLO多模态融合可以采用前端融合、后端融合或中间融合的方式来实现。不同的融合方式有各自的优缺点,需要根据具体情况选择合适的方法。后融合方法可以提供更好的解释性,但也需要解决融合过程的不稳定性和模态之间的相干性等问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [ECCV2022 | 多模态融合检测新范式!基于概率集成实现多模态目标检测](https://blog.csdn.net/CV_Autobot/article/details/126756930)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* [工程(八)——yolov5可见光+红外双模态融合(代码)](https://blog.csdn.net/HUASHUDEYANJING/article/details/126275611)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值