SOSMaskFuse: An Infrared and Visible Image Fusion Architecture Based on Salient Object Segmentation Mask
论文地址:
G. Li, X. Qian and X. Qu, "SOSMaskFuse: An Infrared and Visible Image Fusion Architecture Based on Salient Object Segmentation Mask," in IEEE Transactions on Intelligent Transportation Systems, doi: 10.1109/TITS.2023.3268063.
代码地址:
https://github.com/qianxuanhu/SOSMaskFuse
简介
使用单一传感器只能收集有限的环境信息。图像融合可以将多信息聚合,但红外的噪点会掩盖可见光图像的纹理,导致融合图像分辨率低。因此,我们提出两阶段网络SOSMaskFuse。第一阶段利用显著性目标分割网络(SOSnetwork)提取红外图像中人们关注的目标掩膜。第二阶段将红外、掩膜和可见光图像一并输入到自动编码-解码网络进行多尺度深度特征提取,在每个尺度层利用提出的IMV-F图像融合策略,将特征融合后,再解码输出成最终融合图像。在 3 个数据集,定性和定量的结果优于18 种对比算法。总的来说,本方法降低红外噪点,在突出红外信息的同时增加可见光信息,生成具有清晰背景纹理的融合图像。
融合方法及网络结构
在训练网络参数阶段,共需要分别训练两个网络。1)SOS network 网络:我们对SOS network 网络进行模型训练,该网络训练完成后,可以从红外图像中分割出显著性目标,同时根据分割结果产生二值化的掩膜,从而为后续的图像信息融合阶段提供特定的融合约束和指导。2)自动编码-解码器网络:利用自然图像训练该网络,从而具备将图像多尺度分解为特征,又可以将各尺度特征重构成完整图像的能力。
在测试融合效果阶段,红外图像先经过显著性目标分割网络 SOS network 的提取,得到热源目标二值化的显著性掩膜。随后,利用自动编码器-解码器网络将三张图像(红外图像,二值化显著性掩膜,可见光图像)进行多尺度分解,得到四个不同尺度的图像特征层。在各个尺度层内,利用新提出的图像融合策略 IMV-F 将红外和可见光图像分解 为显著区域和背景区域,再对这些图像特征信息分别融合,得到四个融合后的图像特征层。最后,利用编码器-解码器网络的解码能力,将各个尺度特征重构成完整的融合图像。
显著性目标分割网络 SOS network
经过训练后的SOSnetwork,可以有效提取红外图像中人们感兴趣的显著性区域,并输出成二值化Mask。该网络结构为HRNet(J. Wang et al., “Deep high-resolution representation learning for visual recognition,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 43, no. 10, pp. 3349–3364, Oct. 2021.),损失函数为二值化交叉熵损失函数。
特征提取编码-解码网络
该结构主要作用是多尺度提取图像深度特征,并将多尺度特征重组成图像。可以在深度特征阶段φ1-4进行信息融合。该结构使用了NestFuse里的结构(H. Li, X.-J. Wu, and T. Durrani, “NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models,” IEEE Trans. Instrum. Meas., vol. 69, no. 12, pp. 9645–9656, Dec. 2020.)。
图像融合策略 IMV-F
第一列图像:
可见光图像、mask和红外图像作为IMV-F的输入。可见光和红外分别与mask进行像素乘法操作,分离出(可见光前景、可见光背景)和(红外前景、红外背景)。
第二列图像:
前景融合(黑色线),0.8 * 红外前景 + 0.2 * 可见光前景,论文中进行了消融实验。根据整个论文的目的,我们是想突出红外的前提下,减少红外背景噪音,所以红外前景比例高。
背景融合(红色线),利用空间/通道注意力模型进行融合,确保背景部分也有一定的有用红外信息,以防显著性掩膜mask没有分割出的有用红外信息丢失,增加整个模型的泛化性。
背景信息(绿色线),直接将可见光背景流转的下一阶段,根据论文目的,我们想要突出红外信息,同时减少红外背景噪声,增加可见光图像的纹理细节,所以这里直接对背景部分进行保留。
第三列图像:
最后对背景部分进行soft-max比例融合后,与前景部分合并,得到最终融合后的特征。
注意力融合模块 SCA
该模块借鉴了NestFuse的并联空间-通道注意力模型。
实验结果
消融实验
以下仅展示定性定量结果,论文中有详细分析。
前景消融μ↑
背景消融γ↑
对比实验
以下仅展示定性定量结果,论文中有详细分析。
其他
如内容有帮助,欢迎在你的论文中进行介绍,方法对比。如您有好的建议,欢迎一起讨论交流,希望共同进步。
@ARTICLE{10109138,
author={Li, Guofa and Qian, Xuanhu and Qu, Xingda},
journal={IEEE Transactions on Intelligent Transportation Systems},
title={SOSMaskFuse: An Infrared and Visible Image Fusion Architecture Based on Salient Object Segmentation Mask},
year={2023},
volume={},
number={},
pages={1-20},
doi={10.1109/TITS.2023.3268063}}