没有代码
整体框架就是改进了RFN-Nest中间的融合模块,把当年对ViT的一个新改进的方法拿来用了。
使用了很多损失,但个人觉得损失的权重系数的计算不是很好。
1、Motivation
- 现有的融合策略太简单没有利用特征信息
- 基于CNN的方法仅考虑到了局部,没有考虑到全局上下文信息。
- 端到端的方法缺少明显的特征提取步骤。
本文贡献为:
- 引进了聚焦自注意力(focal self-attention,就是一个对transformer的改进,作者拿过来用了)
- 有效地利用多模态特征,设计了一个自适应的融合策略,该策略是根据特征提取器不同层不同的特征设计的。
- 实验表明我们的方法大多数sota要好。
二、网络结构
每个EB,由两个卷积层和一个ReLU和maxpooling。
中间的融合层:
三、损失
作者这里分析了encoder部分提取的4层特征,指出浅层特征有丰富的细节,中间23层表征了结构信息,最后一层主要是区域特征。
(**作者没有说明这个可视化是怎么做的,为什么一开始的卷积层就获得全局信息呢? **)
然后作者在这分别设计了三项损失:
第一层:第一层有更多细节,因此在元素级别设置了元素细节损失为了保持细节纹理信息
第二三层:(结构相关性损失,保持轮廓边缘信息)
第四层:分辨率最低,前景和背景容易区分。因此设置了区域 特征损失
这里多了一项用于去噪的掩码:
以上都有一个共同的权重系数:
这里是矩阵的一范数,各元素绝对值,取列求和最大。真的有效吗?
二阶段训练时的总损失为:
作者说:VIS图像有明显易区分的结构,IR有噪声和模糊的结构?(IR结构模糊?不太合理)
因此SSIM只使用了VIS。
这个上面提取的四层特征设置的损失,作者称之为自适应的融合策略。
为了保持IR的显著性目标,对IR使用了LC显著提取算法生成显著性图,然后正则化得到权重图,与IR和VIS加权。
四、训练
与RFN类似,两阶段训练。第一阶段的损失:
可以看出,IR中亮的地方都保留到了融合结果中,不知道是哪个损失影响最大。
五、总结
本文提出了一种新的红外与可见光图像融合方法(MFST)。首先设计了自适应融合策略,以更有效地利用多模态特征的信息。然后,焦点自注意机制促使模型在融合过程中关注局部和全局信息。最后,引入显著性信息使融合结果能够保留红外图像的更多显著对象。使用三种不同的红外与可见光图像数据集验证了所提方法的有效性,结果表明我们的方法具有很强的泛化能力和很好地融合复杂场景的能力。通过与当前八种流行方法进行比较实验分析,表明本文方法的融合质量和融合效率优于这八种流行方法,证实了所提方法的优越性。
然而,所提方法在某些图像上不能表现最佳,这表明我们的模型仍有很大的改进空间。有几个关键问题值得进一步研究:
(1)是否有其他模态特征可以提取?
(2)如何减轻模型,使其能够融合更高分辨率的图像?
(3)选择其他FR-IQA指标作为损失函数的基础是否能提高结果的质量?
未来,我们将集中研究这些问题,改进和优化模型,并为这一研究主题做出进一步的贡献。