图像融合论文速读：Conti-Fuse: A novel continuous decomposition-based fusion framework（2024年12月2日）-CSDN博客

本文链接：https://blog.csdn.net/jiexiang5396/article/details/144722905

@article{li2024conti,
title={Conti-Fuse: A novel continuous decomposition-based fusion framework for infrared and visible images},
author={Li, Hui and Ma, Haolong and Cheng, Chunyang and Shen, Zhongwei and Song, Xiaoning and Wu, Xiao-Jun},
journal={Information Fusion},
pages={102839},
year={2024},
publisher={Elsevier}
}

中科/JCR分区：1区/Q1

影响因子：14.8

📖[论文下载地址]
💽[[代码未开源]]

📖论文解读

以往的分解策略（低频及高频、基础和细节）过于粗糙，对源图像的共有特征和独有特征呈现不足，导致融合图像质量下降。该文提出了一种基于连续分解的融合框架Conti-Fuse，将分解结果视为沿源图像特征变换轨迹的少数样本，并将这种思路扩展到更一般的状态以实现连续分解。具体来说，通过增加分解样本数量来增强模态间互补信息的表示，从而减少关键信息丢失。

🔑关键词

Image decomposition 图像分解
Image fusion 图像融合
Multimodality 多模态
Common feature 共有特征

💭核心思想

将图像分解为多个连续状态，注意不是以往方法的采用的二元分解（低频和高频、基础和细节），而是分解为多个连续状态

🎖️本文贡献

引入了一种新颖的分解策略，该策略通过沿着两种模态的深层特征的变化轨迹进行密集采样来实现丰富的分解特征。该方法有效减少了融合图像中关键信息的丢失。
设计了有效的分解损失以促进连续分解。通过利用蒙特卡罗方法，该损失函数加速了计算，从而增强了所提出方法的可扩展性。
进行了广泛的定性和定量实验，证明了我们的方法与其他最先进的融合方法相比具有优异的性能。

🪅相关背景知识

深度学习
神经网络
图像融合
图像分解

扩展学习
[什么是图像融合？（一看就通，通俗易懂）]

以往的方法通常是二元分解，将图像分解为低频信息和高频信息、基础信息和细节信息、共有信息和私有信息等，如上图左所示。这种一般方法将共同特征可以视为其轨迹中间的样本点，而两个独特特征可以近似视为其轨迹两端附近的样本点。
该文将两个源图像的分解特征视为样本点，沿着统一深度特征空间中从一个源图像特征到另一个源图像特征的连续变化轨迹。（上图右的左下角应该为Visible Feature，作者可能是笔误了）

🪢网络结构

作者提出的网络结构如下所示。

在这里插入图片描述

编解码器很简单，这个CDM是个啥？CDM就是连续分解模块(Continuous Decomposition Module, CDM)
不着急，我们一步一步看。
Conti-Fuse主要由三类模块组成：编码器、解码器和连续分解模块（CDM）。编码器和解码器分别用于从源图像中提取浅层特征并重建融合图像。 CDM 旨在实现两种模式之间的相互作用并生成过渡状态。

🪢编码器

由卷积、ReLu及平均池化构成，可见光模态和红外模态的编码器结构相同。用于提取浅层特征并将其映射至统一深层特征空间中。

🪢CDM

输入为同层次的红外及可见光编码器的输出。首先，输入之后进行通道拼接，然后进入一个残差模块 $P$ （1×1卷积、分组卷积、ReLU、跳跃连接）得到 $S$ 。
然后，将 $S$ 输入特征提取器State Transformer $ST$ 中，它利用多头自注意力机制来捕获过渡状态之间的互补关系。其结构如下图所示。
在这里插入图片描述
TSWM首先从 $S$ 中生成 $Q, K, V$ ，然后 $Q, K, V$ 进行Reshap并分割为多个注意力头 $\hat Q,\hat K,\hat V$ 。 $h$ 代表注意力头的数量。然后，将标准多头和自注意力沿着过渡状态应用，得到TSWM的输出 $O$ 。

将输出 $O$ 输入门控前馈网络GDFN并加上 $O$ ，即可得到 $ST$ 的输出 $T$ 。

将 $T$ 进行状态维度拼接得到最终输出 $Z$ 。

$\mathbf{Q}=\Phi_{Q} ( S ), \mathbf{K}=\Phi_{K} ( S ), \mathbf{V}=\Phi_{V} ( S )$
$\hat{\mathbf{Q}} \cdot\hat{\mathbf{K}}^{T} / \sqrt{E} )$
$\begin{array} {c} {{{O=\phi_{p} ( \hat{\mathbf{V}} \cdot A t t e n )+S}}} \\ {{{T=G D F N ( O )+O}}} \\ \end{array}$
$\begin{array}{l} {S^{(l)}} = {P^{(l)}}([{V^{(l)}};{I^{(l)}}|c])\\ {T^{(l)}} = S{T^{(l)}}({S^{(l)}})\\ {Z^{(l)}} = [{V^{(l)}};{T^{(l)}};{I^{(l)}}|s] \end{array}$
[GDFN相关知识可以点这里]

🪢解码器

解码器块的不同层在各自的尺度上执行特征融合和图像重建。解码器块通过3×3卷积层对 CDM 的输出进行基本特征融合。随后，该结果与解码器块前一层的上采样输出以及通道级联。然后，通过两个3×3卷积层和两个ReLU激活函数，进行该规模的进一步融合和重建。
$\begin{array}{l} {f^{(N)}} = {I^{(N)}} + {{\rm{V}}^{(N)}}\\ {f^{(l - 1)}} = D{E^{(l)}}({f^{(l)}},{Z^{(l)}}) \end{array}$

📉损失函数

损失函数由分解损失、强度损失和梯度损失构成。
$L_{all}=L_{decom}+\alpha_{1}L_{int}+\alpha_{2}L_{grad}$
强度和梯度损失老生常谈，该文使用的是F范数+MAX操作。不清楚的同学可以移步至作者之前的文章。
我们主要来讲讲分解损失。作者定义了一种距离度量函数
$\Gamma(X,Y)=\frac{1}{C}\sum_{k=1}^{C}pers(X_{k},Y_{k})$
$pers(A,B)=\frac{\sum_{i,j}(A_{i,j}-\bar{A})(B_{i,j}-\bar{B})}{\sqrt{\sum_{i,j}(A_{i,j}-\bar{A})^{2}}\sqrt{\sum_{i,j}(B_{i,j}-\bar{B})^{2}}}$

将两个没有差异的特征之间的距离设置为 1。接下来就要看图了，作者图画的非常清晰明了。看下面的3张

在这里插入图片描述

这些图什么意思呢？
其实就是计算两个特征之间的距离，对角线上的等于自己和自己的距离为1，而且这是一个对称矩阵，即你到我的距离和我到你的距离是一样的，接下来作者就只分析了下三角。通过Fig.4可以明白，利用约束距离矩阵𝑀𝑐，可以对分解过程施加整体约束。怎么操作呢？将左下角的值近似等于源图像之间的距离。对于剩余的距离，让它们沿着主对角线到左下角的方向从 1 衰减到 𝜇（用高斯衰减的方法）。
作者定义了一个目标矩阵𝑀𝑡（Fig.5）
在这里插入图片描述
然后就是利用距离矩阵𝑀𝑐和目标矩阵𝑀𝑡进行约束了。这个损失函数在计算的时候，只需要计算下三角区域，对角线和上三角没必要算。

图3很简单，就是两个特征之间的距离代表的是矩阵里的哪个块，大家可以对比着看。

🔢数据集

MSRS
TNO
M3FD

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

The number of blocks (Encoder and Decoder) and transition states in our model is set to 𝑁 = 3 and 𝐾 = 7. The model width is configured to 8, which corresponds to the number of channels obtained from the linear layer mapping the input source image. Each layer in the CDM contains one State Transformer, and the number of heads in the TSWM is set to 4. We employ average pooling for downsampling and bilinear interpolation for upsampling. For model training, training images are randomly cropped to 192 × 192, with random flipping being the only data augmentation technique used. The batch size and number of epochs are set to 20 and 250, respectively. To mitigate potential instability during training, we implement gradient clipping to prevent the occurrence of gradient explosion. AdamW [38] is utilized as the optimizer, and WarmupCosine serves as the learning rate adjustment strategy. We gradually increase the learning rate from 10−5 to 6 × 10−5 during the first 50 epochs, and subsequently, it is gradually decayed to 5 × 10−6 over the remaining epochs. The proposed Gaussian decay function is employed as the decay strategy (Eq. (9)) to compute the decomposition loss, with hyperparameters 𝛼1 and 𝛼2 both set to 15. Our code is implemented using the PyTorch framework, and all experiments are conducted on a NVIDIA GeForce RTX 3090 Ti.

🔬实验

📏评价指标

MI
SF
AG
VIF
QABF
LIQE
TOPIQ
后面两个指标见的少，给大家介绍一下，这两个都是正指标。
LIQE 采用图像语言模型来评估图像质量，值越高表示质量越好。
TOPIQ 利用注意力机制来评估图像中的失真和噪声水平，值越高表示质量越好。

扩展学习
[图像融合定量指标分析]

🥅Baseline

SwinFusion
DeFusion
DDFM
IRFS
LRRNet
GIFuse
CrossFuse

✨✨✨扩展学习✨✨✨
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述

更多实验结果及分析可以查看原文：
📖[论文下载地址]

🧷总结体会

思路很新，中间那个连续分解的过程，是不是看起来和扩散模型有点像哈哈哈，我感觉都是一步一步这样的
可惜的是作者没有开源代码，而且没有运行时间分析，只有消融实验的参数量对比，没有与其他方法参数量的对比
14356M在IVIF任务中，算是很大的模型了，估计推理速度也会比较慢（因为是一步一步这样的），所以作者没有把这部分放在论文中。
同理，没有与其他模型对比参数量，还是因为Conti-Fuse太大了。

🚀传送门

🌻【如侵权请私信我删除】

如有疑问可联系：420269520@qq.com;
码字不易，【关注，收藏，点赞】一键三连是我持续更新的动力，祝各位早发paper，顺利毕业~

图像融合论文速读：Conti-Fuse: A novel continuous decomposition-based fusion framework（2024年12月2日）

文章目录

📖论文解读

🔑关键词

💭核心思想

🎖️本文贡献

🪅相关背景知识

🪢网络结构

🪢编码器

🪢CDM

🪢解码器

📉损失函数

🔢数据集

🎢训练设置

🔬实验

📏评价指标

🥅Baseline

🔬实验结果

🧷总结体会

🚀传送门

📑图像融合相关论文阅读笔记

📚图像融合论文baseline总结

📑其他论文

🎈其他总结

✨精品文章总结

🌻【如侵权请私信我删除】