读论文:Real-Time Semantics-Driven Infrared and Visible Image Fusion Network

(引用)


论文所在期刊:Sensors
发布时间:2023.7.3
所在级别:SCI的Q1分区
影响因子:3.9

论文下载


论文笔记

关键词

semantics-driven; image fusion; convolution neural network
语义驱动;图像融合;卷积神经网络

提出问题

  • 现有算法倾向于采用全局融合处理源图像信息,对源图像中的每个局部目标使用相同的处理方案,而没有考虑源图像中每个目标在不同任务下的重要性,导致融合图像的局部融合效果一般
  • 一些研究通过引入像素显著性来限制网络进行局部融合,但像素显著性无法实现对图像中目标物体的高效检测
  • 现有图像融合网络的损失函数主要集中在图像的整体结构损失全局像素损失,然而,这两种损失类型都不能充分反映图像局部重要目标上的像素损失

核心思想

  • 该框架的主要创新之处在于它使用了语义分割模型来指导融合过程,通过语义分割图,获取源图像和融合图像的主要语义目标,然后通过本文设计的基于局部目标对象的语义损失计算他俩之间在局部目标对象上的像素损失,从而最大限度地保留源图像中的局部目标特征。
  • 作者认为在相同的计算能力下,根据不同的场景,在源图像中选择不同的显著目标物体进行增强更为重要,而剩下的物体可以相对忽略

网络结构

总体网络:
总体框架

  • 融合网络
    包括两个组成部分:一个特征提取网络和一个特征重构网络。其中的RABlock是根据ResBlock调整的,RABlock改进了特征提取网络和深度学习的能力,专注于基本特征,同时减少梯度消失或爆炸
    在这里插入图片描述
  • 语义分割网络:SegFormer
    • SegFormer网络是一种基于transformer和多层感知器的轻量级分割网络,具有参数少、训练快、功能强大等优点
    • 编码器由四个变压器块组成,可以输出不同尺度的特征。解码器使用轻量级多层感知器(MLP)来聚合多尺度特征,并使用UpSample层来恢复原始分辨率
    • 在该图像融合过程中,人、车、路的语义目标被赋予更高的优先级,是最终融合图像中需要保留的重要语义目标对象。此外,红外和可见光图像的语义分割图像差别很大,有些语义对象只存在于红外或可见光图像中。因此,为了避免源图像中重要目标的语义丢失,我们在红外图像中对人物和汽车使用掩模,在可见光图像中对道路和植物使用掩模,在红外和可见光图像中对天空使用掩模。
      在这里插入图片描述

将红外图像(Iir)和可见光图像(Ivi)输入到融合网络(F(·))中,得到融合图像(IF)
在这里插入图片描述
将Iir和Ivi输入到语义分割网络(S(·))中生成掩码(IM)。
在这里插入图片描述
通过权函数(W(·))和掩码得到源图像目标(IT)
在这里插入图片描述
通过掩模和融合得到融合图像目标(IFT)
在这里插入图片描述

损失函数

总损失包括结构损失(ST(·))和语义损失(SE(·)),利用反向传播方法将总损失反馈到网络中以更新网络参数
在这里插入图片描述
在这里插入图片描述
ω1和ω2的取值范围为[0,1],ω1 + ω2 = 1。SSIM函数考虑图像的三个要素:亮度损失、对比度损失和纹理损失
在这里插入图片描述
l(x, y)表示融合图像的全局亮度损失,c(x, y)表示融合图像的全局对比度损失,s(x, y)表示融合图像与源图像之间的全局结构相似性损失
在这里插入图片描述
这里使用的是局部语义损失,将主要目标设置为人、车辆、天空、道路和植物。利用语义分割模型对红外图像和可见光图像进行分割,并利用掩码提取分割图像中的语义对象
在这里插入图片描述
其中关于人的语义损失定义如下,Fperson为融合图像中的人像素,IRperson为红外图像中的人像素,VISperson为可见光图像中的人像素,双竖线为l2范数,N为掩模内值为1的像素个数,其中ω3、ω4为红外、可见光图像中的人像素显著系数。后者的取值范围为[0,1],ω3 +ω4 = 1
在这里插入图片描述

数据集

  • 使用语义分割网络SegFormer对红外和可见光数据集RoadScene进行语义分割,并对分割后的图像进行人工校正,最终得到一个新的具有语义分割图像的红外和可见光数据集RSS(RoadScene- seg)
  • 语义分割使用的训练集:ADE20K,涵盖了广泛的场景和对象类,在对图像进行语义分割后,按照ADE20K数据集中的调色板可以很容易地提取语义图像的每个目标对象
  • 使用RoadSceneTNO数据集对我们的算法进行了定量和定性实验

训练设置

使用RoadScene数据集来训练RSDFusion模型。从中选取了180对红外和可见光图像;然后,使用语义分割网络对这些图像进行分割。分割后的每组图像包含一幅红外图像、一幅红外语义图像、一幅可见图像和一幅可见光语义图像

  • 采用256 × 384的滑动窗口,步长为32,对图像进行裁剪,得到更多的训练图像。裁剪后,总共得到1908个图像集用于训练
  • 在测试中,从TNO和RoadScene数据集中选择21对典型图像进行对比实验
  • 超参数为:训练批大小为16;迭代次数为10次;学习率为5 × 10−4;而优化者就是Adam
  • PyTorch平台上构建,所有实验均在Intel i9-11900和NVIDIA GeForce RTX 3090上进行

实验

评价指标

Baseline

  • 两种传统算法:MDLatLRR和GTF
  • 3种基于ae的方法:DenseFuse、NestFuse和RFN-Nest
  • 两种基于cnn的算法:IFCNN和SeAFusion
  • 两种基于gan的算法:FusionGAN和U2Fusion

实验结果

  • 客观对比
    U2Fusion的红外目标严重缺失,无法明显捕获。FusionGAN和GTF缺乏背景信息(图f和c),例如天空中云的详细纹理信息。RFN-Nest融合图像对比度低,整体亮度偏暗(图j)。IFCNN和MDLatLRR保留了红外目标信息,但目标显著性不足(图e和d)。相比之下,SeAFusion和RSDFusion可以保留高质量的红外目标(图k和i)。RSDFusion在突出红外目标的同时,提供了更详细的纹理信息,在视觉效果上更加真实
    在这里插入图片描述
    在这里插入图片描述

    • 在RoadScene数据集上的数据:
      在EN、SD、MI和VIF四个指标上具有显著优势,其余指标处于平均水平
      在这里插入图片描述
      在这里插入图片描述
    • 在TNO数据集上的数据:
      在这里插入图片描述

在这里插入图片描述
总结原因:利用语义损失准确捕获提取的目标,提高了网络对局部图像的控制。其次,利用全局结构损失函数对融合图像进行约束,在保证提取焦点目标的同时,保留源图像更详细的纹理信息

  • 主观对比
    如图7所示,RFN-Nest红外目标丢失严重,无法明显检测到红外目标。其次,与红外图像中的目标相比,MDLatLRR和DenseFuse检测到的目标亮度过大,边缘位置模糊。此外,GTF、IFCNN和NestFuse保留了红外目标信息,但存在可见光图像对红外目标信息的污染。U2Fusion、STDFusion、SeAFusion和RSDFusion可以保留高质量的红外目标。特别是RSDFusion在突出红外目标的同时,纹理信息更加细致,视觉效果更加逼真。从图8可以看出,RSDFusion是唯一一种同时保留右侧可见细节特征和红外流目标的方法
    在这里插入图片描述
    在这里插入图片描述
  • 效率对比
    在TNO和RoadScene数据集上优于除IFCNN以外的所有其他方法
    在这里插入图片描述
  • 消融实验
    在这里插入图片描述

在这里插入图片描述

传送门

其他笔记

  • 16
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值