图像融合论文阅读：CS2Fusion: 通过估计特征补偿图谱实现自监督红外和可见光图像融合的对比学习

最新推荐文章于 2024-06-25 22:13:30 发布

图像强

最新推荐文章于 2024-06-25 22:13:30 发布

阅读量2k

点赞数 31

分类专栏：图像融合文章标签：论文阅读图像处理人工智能论文笔记深度学习图像融合

本文链接：https://blog.csdn.net/jiexiang5396/article/details/135458033

版权

图像融合专栏收录该内容

37 篇文章 46 订阅

订阅专栏

@article{wang2024cs2fusion,
title={CS2Fusion: Contrastive learning for Self-Supervised infrared and visible image fusion by estimating feature compensation map},
author={Wang, Xue and Guan, Zheng and Qian, Wenhua and Cao, Jinde and Liang, Shu and Yan, Jin},
journal={Information Fusion},
volume={102},
pages={102039},
year={2024},
publisher={Elsevier}
}

论文级别：SCI A1

影响因子：18.6

📖[论文下载地址]
💽[代码下载地址]

📖论文解读

作者认为以往的方法中，缺乏对源图像之间同一性和差异性的关注，无法充分利用其【互补信息】
为了解决这个问题，作者提出了一种基于【对比学习】的【自监督】【端到端】融合模型，该模型将红外图像视为可见光图像的补充。并且提出了补偿感知网络CPN（Compensation Perception Network）指导backbone network根据红外图像的特征补偿图生成融合图像。
具体来说，使用【自相关】和【显著性运算】重构正/负对，从而驱动CPN在对比损失的约束下，感知红外图像相对于可见光图像的互补特征。
CPN采用了自监督机制，通过从可见光图像中随机裁剪patch，来模拟视觉冲击区域（visually impaired areas），以提供同一场景到多个正样本的更多变化信息，从而增强模型的细粒度感知能力。
此外，作者还在backbone中设计了需求驱动模块DDM（demand-driven module），该模块在图像重构的时候，主动查询以此来改善提升层间信息，并且整合更多的空间结构信息。
上文中提到的CPN，是一个辅助网络，仅出现在训练过程中，用于驱动backbone以自监督的方式完成训练。

🔑关键词

Image Fusion 图像融合
Contrastive Learning 对比学习
Feature Compensation Map 特征补偿图
Identity and Divergence 同一性与差异性

💭核心思想

不同模态的语义信息通常有很大的差异
尽管语义差异很大，但是在相同模态特征中，自相关分布和显著特征趋于相同

因此，将红外光图像视作可见光图像的补充，使用CPN生成红外图像特征补偿图，以此指导backbone生成融合图像。

扩展学习
[什么是图像融合？（一看就通，通俗易懂）]

🪅相关背景知识

🪅对比学习

对比学习通过构造正样本和负样本并调整潜在特征空间中样本之间的距离来驱动模型学习样本的一般特征。由于其强大的特征表示能力，无需任何注释或基本事实即可发现尽可能多的潜在数据信息。
本文利用源图像之间的同一性和差异性构造正负样本，以此来增强感知互补特征，从而提升融合性能。

扩展学习
对比学习（contrastive learning）

🪢网络结构

作者提出的网络结构如下所示。

该网络结构包括两部分，backbone和CPN。
在这里插入图片描述
上图中，左边最下面的图像 $\mathcal AVIS$ 是从可见光图像数据增强得到的图像
$\mathcal M_i$ 是CPN产生的特征补偿图

🪢骨干网络

该backbone借鉴了SMFuse。
CS2Fusion将红外光-可见光图像作为一对输入，然后将红外光-扩张可见光图像作为另一对输入。
主干网络由四层权重共享的卷积块（CB）组成，形成一个密集编码器，用于从红外图像（𝐼𝑅𝑖）和可见图像（𝑉𝐼𝑆𝑖）中提取特征。然后将这些提取的特征输入解码器（由四层 CB 组成），解码器在需求驱动模块（DDM）的指导下生成融合图像𝐹。此外，红外图像和增强可见光图像 $\mathcal AVIS$ 都采用相同的方法来构造正负样本并生成增强补偿图 $\mathcal {AM}_i$ ，使得CPN能够生成准确的 $\mathcal M_i$ 。

在解码器中设计了DDM来补偿信息损失并增强层间的信息流。 DDM是主动特征融合组件，以通道注意力学习到的需求图作为查询依据，通过查询源特征来实现特征补充。如下图
在这里插入图片描述
输入是红外和可见光源图像特征，以及输入特征流，输出是需求图。上图画的很清晰，提取特征，然后相乘后相加，具体的过程可以用公式表述为：

CA是通道注意力机制，AP和MP是最大池化和平均池化。

backbone的损失函数为：
损失函数=结构损失 + map损失
在这里插入图片描述

🪢CPN

CPN 的主要作用是在训练过程中利用源特征之间的同一性和散度来感知红外图像相对于可见图像的互补特征。这种认知促使骨干网络有效地生成高质量的融合图像。
CPN 将提取的特征作为输入并执行两个主要操作。
首先，它通过两层CB和归一化操作（Norm）生成补偿图 $\mathcal M_i$
在这里插入图片描述
其次，它利用自相关和显着性操作（SSO）来生成正样本和负样本，从而约束 $\mathcal M_i$ 的生成。