【红外与可见光图像融合】CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Mult

本文的backbone使用U-Net,虽然作者没怎么强调这一点,backbone部分是把VIS和IRconcat到一起提取特征,VIS和IR还分别使用VGG提取了独特的特征,并从第二层开始使用作者提出的MAM(注意力融合块)融合三部分特征,然后再送入同一层的decoder部分。得到一个融合图像,为了同时保留两种模态的典型特征并避免在融合结果中出现伪影,我们在损失函数中开发了一种耦合对比约束。
首先使用自适应权重可学习的损失函数训练网络,然后再添加对比损失进行微调。
作者的数据集格式是.h5,是作者自己预处理的,本文把图像分解为前景和背景的掩码M是预处理好保存在.h5文件里的。
#代码公开
#对比学习
#通用融合框架

1、摘要

现有的基于学习的融合方法尝试构建各种损失函数以保留互补特征,但忽略了发现两种模态之间的相互关系,导致融合结果中出现冗余甚至无效的信息。此外,大多数方法侧重于通过增加网络的深度来加强网络,而忽视了特征传递的重要性,导致重要信息的退化。为了解决这些问题,我们提出了一种耦合对比学习网络,称为CoCoNet,以端到端的方式实现红外和可见光图像融合。具体来说,为了同时保留两种模态的典型特征并避免在融合结果中出现伪影,我们在损失函数中开发了一种耦合对比约束。在融合图像中,其前景目标/背景细节部分在表示空间中被拉近到红外/可见源并远离可见/红外源。我们进一步利用图像特征提供数据敏感权重(这一块应该指的是自适应的权重),使我们的损失函数能够与源图像建立更可靠的关系。
建立了多层次注意力模块,以学习丰富的层次化特征表示,并在融合过程中全面传递特征。

2、动机

我们认为红外和可见光图像融合(IVIF)的目标是保留两种模态的互补信息,同时消除冗余信息。然而,IVIF任务没有显式指导的监督信号。为了解决这个问题,现有的工作只在损失函数中设计结构或像素级别的项,这并不能确保模型通过有效特征进行优化,
例如大多数红外图像中的模糊纹理可见光图像中的暗目标不应成为有效的监督信号。因此,融合结果的目标/细节通常包含令人不快的伪影。
我们认为源图像对中存在内在的特征指导,即红外中的显著热目标和可见光中的丰富纹理细节。通过引入人工先验,我们基于对比学习设计了两个损失项,以对显著目标和生动纹理施加显式约束。此外,大多数融合方法使用跳跃连接来避免融合过程中的信息损失。然而,这些直接跳跃连接(所以作者使用MAM融合后送入后续)也可能引入未经过滤的信息,为融合图像带来噪音。此外,损失函数中手工制作的权衡超参数通常难以调整,给模型对特定数据的灵活性带来潜在威胁。因此,我们引入了一个耦合对比学习网络来缓解这些问题。通过在损失函数中详细阐述构建的耦合对比约束以及自适应权重,我们能够融合最重要的信息并自动确定它们在损失函数中的个体权重。此外,还结合了多层次注意力模块,以学习全面的特征表示。

=====================================================================================================

之前也有一些文章把最终得到的融合结果分解成细节和显著性目标两部分进行约束,采取的策略不同,本文采用了对比学习的思想。

在本文中,我们认为理想的特征作为正负样本包含在源图像中。具体地,对于红外图像,其前景显著的热目标相比其他部分更具吸引力。类似地,在可见光图像中,背景丰富的纹理细节相比其黑暗的前景部分需求更高。我们利用这一先验来构建对比对,使得我们的模型可以学习区分具有高像素强度的显著目标和背景的纹理细节。最终,我们的模型意识到来自源图像的典型特征,实现了互补融合。我们针对融合结果基于两组约束的两个目标进行了两个目标的设定:
为了提高前景对象的显著性,从红外图像中提取的相应目标被用作正样本,而来自可见图像的相应区域被用作负样本。同时,当我们需要保留融合结果中清晰的背景细节时,我们将可见图像设置为正样本,红外图像设置为负样本。为了最大化上述目标,**我们引入人工先验,根据TNO数据集中典型红外图像生成相应图像对的手动生成的掩模。**如图2所示,让M表示前景的显著掩模,M表示背景的显著掩模(M = 1−M)。这种显式指导迫使模型区分显著性和纹理细节,并能够从可见光和热传感器中提取并融合它们。为此,为了提高前景显著性而选择的正负样本,称为目标约束,应为IR * M和IV * M。对于潜在特征空间,我们选择了常用的预训练权重的VGG-19,表示为G。我们将这一目标的损失函数定义为:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

网络

在这里插入图片描述
MAM就是把3部分的特征进行一个整合,这里的CA:根据Non-local net改的
在这里插入图片描述

4、损失

训练时的损失:
在这里插入图片描述
包括一个SSIM和一个MSE,这里VIS和IR各自的参与度也就是权重是自适应的

在这里插入图片描述
在这里插入图片描述
SSIM的权重用的是:计算平均梯度的占比
在这里插入图片描述
在这里插入图片描述
MSE的权重用的是:EN的占比
在这里插入图片描述
在这里插入图片描述

微调时:加入对比损失
在这里插入图片描述

算法步骤:
在这里插入图片描述

作者展示了不同epoch的效果,这个可以学习借鉴一下。
在这里插入图片描述

TNO上主观图:

在这里插入图片描述

  • 17
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值