图像融合论文速读：SDCFusion_A semantic-driven coupled network for infrared and visible image fusion（2024年）

图像强

已于 2024-06-04 16:07:58 修改

阅读量1.1k

点赞数 12

分类专栏：图像融合文章标签：论文阅读图像融合深度学习人工智能图像处理

于 2024-06-04 15:54:10 首次发布

本文链接：https://blog.csdn.net/jiexiang5396/article/details/139440571

版权

图像融合专栏收录该内容

37 篇文章 44 订阅

订阅专栏

@article{liu2024semantic,
title={A semantic-driven coupled network for infrared and visible image fusion},
author={Liu, Xiaowen and Huo, Hongtao and Li, Jing and Pang, Shan and Zheng, Bowen},
journal={Information Fusion},
volume={108},
pages={102352},
year={2024},
publisher={Elsevier}
}

论文级别：SCI A1 TOP

影响因子：18.6

📖[论文下载地址]
💽[代码下载地址]

📖论文解读

本文主要解决的问题是：提高图像融合在下游高级视觉任务（如语义分割、目标检测）的性能
以往将融合与下游任务级联的方法，因为融合与下游任务的特征级异质性（heterogeneities），存在像素级信息丢失及语义信息重构不完整的问题，为了解决这个问题，作者提出了语义驱动的IVIF耦合网络（SDCFusion， semantic-driven coupled network for infrared and visible image fusion），这个网络的特点如下：

为了解决特征异质性的问题，将融合网络与分割网络结合，注意：不是级联（cascade），而是耦合（coupled ），使两个网络共享多层跨模态的耦合特征
为了指导语义信息重构，级联两个网络形成基于语义的驱动动作（driven action），使融合图像获得语义表达能力
为了降低双任务训练的复杂度，引入了自适应训练策略，这个策略具体来说：设计了一个基于mIoU的语义度量权重，平衡联合与驱动的关系

🔑关键词

Infrared image 红外图像
Visible image 可见光图像
Image fusion 图像融合
Semantic segmentation 语义分割
Object detection 目标检测

💭核心思想

将语义分割网络和图像融合网络结合，注意不是以往方法的采用的级联方式，而是将分割网络和融合网络耦合+级联至一个框架中

🎖️本文贡献

提出了一种语义驱动的耦合网络，以提高红外和可见光融合图像在高级视觉任务中的适应性。具体来说，采用联合动作来解决融合和下游任务之间的特征异质性，并利用基于语义的驱动动作来优化像素级语义表示。
为了促进融合和下游任务中跨模态耦合特征的鲁棒性，提出了跨域交互模块CDIM来捕获多视角的关键区域信息和全局交互信息。
为了解决训练过程中双重任务之间的复杂性，我们设计了一种自适应训练策略，该策略采用基于mIoU的语义测量权重（𝜔𝑚）来自适应调整联合动作和驱动动作的参与。
分别在像素和语义级别验证了SDCFusion 的性能。像素级比较实验表明作者的结果具有卓越的视觉效果和指标，语义级比较实验表明 SDCFusion 在高级视觉任务上具有最先进的性能。

🪅相关背景知识

深度学习
神经网络
图像融合
语义分割
目标检测

扩展学习
[什么是图像融合？（一看就通，通俗易懂）]

作者解释了语义驱动网络和语义特征补偿的语义驱动网络

语义驱动网络
通过级联操作构建高级视觉任务对融合网络的引导功能。将融合网络生成的像素级融合图像送入分割网络，获得语义表示，并通过语义驱动动作引导融合网络关注更多的语义信息。如下图所示

$N_{fu}$ 是融合网络， $N_{se}$ 是分割网络。 $w_{fu}$ 和 $w_{se}$ 分别代表融合网络和分割网络的参数。input是输入源图像，L是优化目标，即损失函数。

代表方法：SeAFusion、TarDAL、SuperFusion
这类方法的融合网络往往是像素级的，对语义特征提取能力不足。
因此提出了具有语义特征补偿的语义驱动网络

语义特征补偿的语义驱动网络
这类网络结构如下：

在这里插入图片描述
$F_{sem}$ 是下游网络捕获的深层语义特征。
此类方法将分割网络提取的特征反馈给了融合网络。说白了就是高级任务网络提取的特征，把这些特征也加入到融合的过程中了
这样做可以在一定程度上弥补了融合网络中语义特征的不足，但仍存在一些不足。比如增加了运算复杂度，忽略了像素级信息和语义级信息之间的耦合关系（由于下游任务和融合任务之间的特征异质性，级联框架的融合网络难以平衡融合图像的像素级重构和语义级表示）。

代表方法：SegMiF、PSFusion

为了解决上面两种方法存在的问题，作者提出利用联合优化的分割网络来驱动融合结果的语义表示，即语义驱动耦合网络，框架如下图：
在这里插入图片描述
$F_{cm}$ 是跨模态耦合特征。
此方法中，分割和融合网络被耦合到一个联合框架中，并共享跨模态耦合特征。

作者还设计了一个跨域交互模块(CDIM，cross-domain interaction module)增强数据集在融合和高级视觉任务上的鲁棒性。具体而言，在CDIM中集成了全局交互语义注意机制(GISA)，通过多角度的自注意机制对跨模态全局关系进行建模。耦合网络的共同作用可以迫使融合网络在特征级捕获语义信息。

然而，在像素级融合图像的重建过程中，仍然缺乏语义约束。为了填补这一空白，作者将融合和分割网络级联，并进行基于语义的驱动动作。具体来说，融合网络的结果是由分割网络在上部训练阶段进行评估。随后，利用评价结果不断优化融合图像的语义表示能力。

此外，由于同时优化两个任务的复杂性，作者设计了一种自适应训练策略，该策略采用基于miou的语义度量权对耦合网络的训练过程进行自适应调整。
下面这个图非常漂亮，表达的也很清楚：
在这里插入图片描述
黄色五角星是融合任务，紫色三角形是语义分割任务，如果只在像素域（即只在图像融合领域玩），只能得到局部最优解。如果与语义分割耦合并且级联驱动（相互促进），则可以得到“最优解”
实验证明在语义分割、目标检测任务中，该方法均有出色的表现，并且参数量也不多
在这里插入图片描述

🪢网络结构

作者提出的网络结构如下所示。

在这里插入图片描述

乍一看很复杂对不对，别急，一步一步慢慢看。
首先这个网络模型肯定是有监督的，label是语义分割的label
看网络图最上面的中间，可见光图像时3HW，红外图像是1HW，生成的融合图像（右上角）是3HW。
作者认为，与融合网络不同，分割网络的优化方向是捕获场景的完整语义信息。因此设计的耦合网络可以公式化表达如下：

在这里插入图片描述
$L_{fu}$ 和 $L_{se}$ 代表融合损失和语义分割损失。 $\phi$ 代表共享编码器， $\varphi_{fu}$ 和 $\varphi_{se}$ 代表融合解码器和分割解码器。w代表的是各自网络可学习的参数。
共享编码器的输出是跨模态耦合特征，这个特征可以用于融合任务，也可以用于分割任务。

到这里已经很清楚了，网络由三个块构成。
融合任务和分割任务共享一个编码器（图中间粉色块），融合与分割各自有各自的解码器（图左块和图右块）。

接下来我们看数据流
红外图像和可见光图像分别进入共享编码器的两条独立的分支提取各自的特征，即红外特征和可见光特征。
每一层都能提取特征，然后将相同层的特征输入CDIM，生成该层的跨模态耦合特征
然后将跨模态耦合特征分别输入融合解码器和分割解码器（通道整合、上采样、解码）得到融合图像和分割结果。

但是有个问题，就是跨模态耦合特征由足够的语义信息，但是对可见光像素级信息保留的不好。所以，最终输入融合解码器的，除了跨模态耦合特征还有编码器提取的可见光特征，即图中绿色的箭头线。通道整合操作由1×1的卷积完成（看图好像是concat），获得的特征通过卷积层上采样得到特征图。

分割解码器的最后一层输出 $I_{seg}$ 是HWn，n为分割类别数。
融合解码器的最后一层输出 $I_{f}$ 经过了YCBCR变换得到的HW3.

根据4式联合优化，可以提高像素域和语义域中跨模态耦合特征的鲁棒性。
然而，在像素级融合图像重建过程中仍然缺乏语义约束。
为了进一步促进融合结果的语义表示能力，采用验证策略引入基于语义驱动的操作作为进一步优化融合网络性能的方式。
在这里插入图片描述
$L_{val}$ 代表用于融合网络 $N_{fu}(\phi,\varphi_{fu})$ 的分割网络 $N_{se}(\phi,\varphi_{se})$ 的验证损失，再说一次，用于融合网络的，分割网络的验证损失
具体来说就是，融合结果与红外图像一起输入分割网络，得到基于融合图像的分割结果 $I^f_{seg}$ ，因为是分割结果，所以这个结果的维度是HWn。之所以输入红外图像，是为了满足共享编码器的输入（因为需要两个嘛，之前是红外+可见光，现在是融合图像+红外图像）
就是下图的这个过程

在这里插入图片描述

联合网络的同时优化是困难的。一方面，分割网络 $N_{se}$ 在预训练阶段具有较差的语义感知，导致了受限的驱动行为，并误导了融合网络𝑁𝑓𝑢的优化。另一方面，由于分割性能改进的限制，分割网络在训练后期消耗了部分训练资源并干扰了融合网络的优化。为解决以上问题，设计了基于mIoU的语义测量权重（ $\omega_m$ ）来自适应调整SDCFusion的训练。

🪢CDIM

从网络图我们可以看出，CDIM的输入是相同层的红外特征和可见光特征，输出是跨模态耦合特征
在这里插入图片描述

那么CDIM 内部长什么样子呢？

可以看到，该模块由两个本地空间注意模块（LSA）和一个全局交互语义注意模块（GISA）组成。
LSA利用空间注意机制捕获单模态的关键本地信息。
GISA采用多角度自注意机制来捕获跨模态的全局交互信息。

LSA就是将特征分别通过最大池化和平均池化，得到两个特征，然后将这两个特征concat输入卷积和sigmoid，得到一个SAT（空间权重图），然后将权重图与原始的特征图相乘再与原特征相加（说实话，个人理解这个相加没必要，乘过就可以了），得到了空间注意特征 $F_{spa}$ ，如下:
在这里插入图片描述

在这里插入图片描述

GISA复杂一些

首先要说明一点，红外特征与可见光特征存在相关性和差异性，并且在语义水平上有明显的位置对应。

例如，不同模态中共同位置的行人或汽车具有相同的语义。此外，不同模态的图像在表现不同对象的语义差异中有所不同，例如，红外图像中行人的语义表达更显著，而可见图像中汽车的语义表达更精确。如下图
在这里插入图片描述

为了得到跨模态特征 $F_{sem}$ ，进行如下操作
（有一点需要明确，即自注意机制的计算时间消耗与输入大小呈指数对应，这限制了高分辨率图像的融合效率。）

为了提升计算效率，对特征图下采样至32*32大小
经过卷积层得到各自特征的QKV，V包含着特征的位置信息
我们整合红外和可见光的V以获得跨模态值 $V_{cm}$
有四种组合，红外Q与红外K计算得到【红外全局注意力图 $GAT_{ir}$ 】，可见Q与可见K计算，红外Q与可见K计算，可见Q与红外K计算得到【可见光全局注意力图 $GAT_{vi}$ 】

将跨模态值 $V_{cm}$ 分别与【红外全局注意力图 $GAT_{ir}$ 】和【可见光全局注意力图 $GAT_{vi}$ 】相乘

然后可见Q与可见K计算，红外Q与可见K计算，得到跨模态全局注意力图 $GAT^{vi}_{cs}$ 和 $GAT^{ir}_{cs}$

将各自模态的V与跨模态全局注意力图 $GAT^{vi}_{cs}$ 和 $GAT^{ir}_{cs}$ 相乘

最后，所有的注意力特征图都通过一个通道缩减卷积层（核大小为1×1）进行卷积，从而得到跨模态语义特征图 $F_{sem}$ 。

最终将跨模态语义特征图 $F_{sem}$ 与空间注意特征 $F^x_{spa}$ 整合，得到跨模态耦合特征 $F_{cm}$
在这里插入图片描述

📉损失函数

总损失=融合损失+分割损失+验证损失
$\omega_m$ 就是之前提到的基于mIoU的自适应权重
在这里插入图片描述

𝜔𝑚的图表如图6所示，当语义感知较弱（mIoU倾向于0）时，增加𝐿𝑠𝑒的权重以强制分割网络的持续优化，同时降低𝐿𝑣𝑎𝑙的权重以减少驱动动作的参与。相反（mIoU倾向于1），降低𝐿𝑠𝑒的权重，增加𝐿𝑣𝑎𝑙的权重，通过引导𝜔𝑚偏向最小值。

在这里插入图片描述

📉融合损失

在这里插入图片描述

📉分割损失

使用在线困难样本挖掘交叉熵损失（OhemCELoss）来计算语义损失。
在这里插入图片描述

📉验证损失

在这里插入图片描述

🔢数据集

MSRS
M3FD
FMB（包含语义分割标签）

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

The batch size is set to 30, 𝛼, 𝛽, and 𝛾 are set to 1, 1, and 10. The learning rate is initialized to 2 × 10−5. All training and testing are performed on the NVIDIA Tesla K80 with 12 GB memory and AMD Ryzen 7 4800U with 1.80 GHz.

🔬实验

📏评价指标

QAB/F
EN
STD
VIFF
PSNR
SCD

扩展学习
[图像融合定量指标分析]

🥅Baseline

CBF
FPDE
MSVD
U2Fusion
LRRNet
DATFuse
IRFS
GANMcC
SeAFusion
TarDAL
SuperFusion
PSFusion
SegMiF

✨✨✨扩展学习✨✨✨
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述

更多实验结果及分析可以查看原文：
📖[论文下载地址]

🧷总结体会

提出的耦合+级联框架很惊艳,CDIM模块也很精彩，非常优秀的一篇论文

🚀传送门

🌻【如侵权请私信我删除】

如有疑问可联系：420269520@qq.com;
码字不易，【关注，收藏，点赞】一键三连是我持续更新的动力，祝各位早发paper，顺利毕业~

图像强

关注

12
点赞
踩
31

收藏

觉得还不错? 一键收藏
打赏
2
评论
图像融合论文速读：SDCFusion_A semantic-driven coupled network for infrared and visible image fusion（2024年）

SDCFusion，将语义分割网络和图像融合网络结合，注意不是以往方法的采用的级联方式，而是将分割网络和融合网络耦合+级联至一个框架中
复制链接

扫一扫