图像融合论文速读:Conti-Fuse: A novel continuous decomposition-based fusion framework(2024年12月2日)

@article{li2024conti,
title={Conti-Fuse: A novel continuous decomposition-based fusion framework for infrared and visible images},
author={Li, Hui and Ma, Haolong and Cheng, Chunyang and Shen, Zhongwei and Song, Xiaoning and Wu, Xiao-Jun},
journal={Information Fusion},
pages={102839},
year={2024},
publisher={Elsevier}
}


中科/JCR分区:1区/Q1
影响因子:14.8

📖[论文下载地址]
💽[[代码未开源]]



📖论文解读

以往的分解策略(低频及高频、基础和细节)过于粗糙,对源图像的共有特征和独有特征呈现不足,导致融合图像质量下降。该文提出了一种基于连续分解的融合框架Conti-Fuse,将分解结果视为沿源图像特征变换轨迹的少数样本,并将这种思路扩展到更一般的状态以实现连续分解。具体来说,通过增加分解样本数量来增强模态间互补信息的表示,从而减少关键信息丢失。

🔑关键词

Image decomposition 图像分解
Image fusion 图像融合
Multimodality 多模态
Common feature 共有特征

💭核心思想

将图像分解为多个连续状态,注意不是以往方法的采用的二元分解(低频和高频、基础和细节),而是分解为多个连续状态

🎖️本文贡献

  • 引入了一种新颖的分解策略,该策略通过沿着两种模态的深层特征的变化轨迹进行密集采样来实现丰富的分解特征。 该方法有效减少了融合图像中关键信息的丢失。
  • 设计了有效的分解损失以促进连续分解。 通过利用蒙特卡罗方法,该损失函数加速了计算,从而增强了所提出方法的可扩展性。
  • 进行了广泛的定性和定量实验,证明了我们的方法与其他最先进的融合方法相比具有优异的性能。

🪅相关背景知识

  • 深度学习
  • 神经网络
  • 图像融合
  • 图像分解

扩展学习
[什么是图像融合?(一看就通,通俗易懂)]
在这里插入图片描述

以往的方法通常是二元分解,将图像分解为低频信息和高频信息、基础信息和细节信息、共有信息和私有信息等,如上图左所示 。这种一般方法将共同特征可以视为其轨迹中间的样本点,而两个独特特征可以近似视为其轨迹两端附近的样本点。
该文将两个源图像的分解特征视为样本点,沿着统一深度特征空间中从一个源图像特征到另一个源图像特征的连续变化轨迹。(上图右的左下角应该为Visible Feature,作者可能是笔误了)

🪢网络结构

作者提出的网络结构如下所示。

在这里插入图片描述

编解码器很简单,这个CDM是个啥?CDM就是连续分解模块(Continuous Decomposition Module, CDM)
不着急,我们一步一步看。
Conti-Fuse主要由三类模块组成:编码器、解码器和连续分解模块(CDM)。 编码器和解码器分别用于从源图像中提取浅层特征并重建融合图像。 CDM 旨在实现两种模式之间的相互作用并生成过渡状态。

🪢编码器

由卷积、ReLu及平均池化构成,可见光模态和红外模态的编码器结构相同。用于提取浅层特征并将其映射至统一深层特征空间中。

🪢CDM

输入为同层次的红外及可见光编码器的输出。首先,输入之后进行通道拼接,然后进入一个残差模块 P P P(1×1卷积、分组卷积、ReLU、跳跃连接)得到 S S S
然后,将 S S S输入特征提取器State Transformer S T ST ST中,它利用多头自注意力机制来捕获过渡状态之间的互补关系。其结构如下图所示。
在这里插入图片描述
TSWM首先从 S S S中生成 Q , K , V Q,K,V Q,K,V,然后 Q , K , V Q,K,V Q,K,V进行Reshap并分割为多个注意力头 Q ^ , K ^ , V ^ \hat Q,\hat K,\hat V Q^,K^,V^ h h h代表注意力头的数量。然后,将标准多头和自注意力沿着过渡状态应用,得到TSWM的输出 O O O

将输出 O O O输入门控前馈网络GDFN并加上 O O O,即可得到 S T ST ST的输出 T T T

T T T进行状态维度拼接得到最终输出 Z Z Z

Q = Φ Q ( S ) , K = Φ K ( S ) , V = Φ V ( S ) \mathbf{Q}=\Phi_{Q} ( S ), \mathbf{K}=\Phi_{K} ( S ), \mathbf{V}=\Phi_{V} ( S ) Q=ΦQ(S),K=ΦK(S),V=ΦV(S)
A t t e n = s o f t m a x ( Q ^ ⋅ K ^ T / E ) A t t e n=s o f t m a x ( \hat{\mathbf{Q}} \cdot\hat{\mathbf{K}}^{T} / \sqrt{E} ) Atten=softmax(Q^K^T/E )
O = ϕ p ( V ^ ⋅ A t t e n ) + S T = G D F N ( O ) + O \begin{array} {c} {{{O=\phi_{p} ( \hat{\mathbf{V}} \cdot A t t e n )+S}}} \\ {{{T=G D F N ( O )+O}}} \\ \end{array} O=ϕp(V^Atten)+ST=GDFN(O)+O
S ( l ) = P ( l ) ( [ V ( l ) ; I ( l ) ∣ c ] ) T ( l ) = S T ( l ) ( S ( l ) ) Z ( l ) = [ V ( l ) ; T ( l ) ; I ( l ) ∣ s ] \begin{array}{l} {S^{(l)}} = {P^{(l)}}([{V^{(l)}};{I^{(l)}}|c])\\ {T^{(l)}} = S{T^{(l)}}({S^{(l)}})\\ {Z^{(l)}} = [{V^{(l)}};{T^{(l)}};{I^{(l)}}|s] \end{array} S(l)=P(l)([V(l);I(l)c])T(l)=ST(l)(S(l))Z(l)=[V(l);T(l);I(l)s]
[GDFN相关知识可以点这里]

🪢解码器

解码器块的不同层在各自的尺度上执行特征融合和图像重建。 解码器块通过3×3卷积层对 CDM 的输出进行基本特征融合。 随后,该结果与解码器块前一层的上采样输出以及通道级联。 然后,通过两个3×3卷积层和两个ReLU激活函数,进行该规模的进一步融合和重建。
f ( N ) = I ( N ) + V ( N ) f ( l − 1 ) = D E ( l ) ( f ( l ) , Z ( l ) ) \begin{array}{l} {f^{(N)}} = {I^{(N)}} + {{\rm{V}}^{(N)}}\\ {f^{(l - 1)}} = D{E^{(l)}}({f^{(l)}},{Z^{(l)}}) \end{array} f(N)=I(N)+V(N)f(l1)=DE(l)(f(l),Z(l))

📉损失函数

损失函数由分解损失、强度损失和梯度损失构成。
L a l l = L d e c o m + α 1 L i n t + α 2 L g r a d L_{all}=L_{decom}+\alpha_{1}L_{int}+\alpha_{2}L_{grad} Lall=Ldecom+α1Lint+α2Lgrad
强度和梯度损失老生常谈,该文使用的是F范数+MAX操作。不清楚的同学可以移步至作者之前的文章。
我们主要来讲讲分解损失。作者定义了一种距离度量函数
Γ ( X , Y ) = 1 C ∑ k = 1 C p e r s ( X k , Y k ) \Gamma(X,Y)=\frac{1}{C}\sum_{k=1}^{C}pers(X_{k},Y_{k}) Γ(X,Y)=C1k=1Cpers(Xk,Yk)
p e r s ( A , B ) = ∑ i , j ( A i , j − A ˉ ) ( B i , j − B ˉ ) ∑ i , j ( A i , j − A ˉ ) 2 ∑ i , j ( B i , j − B ˉ ) 2 pers(A,B)=\frac{\sum_{i,j}(A_{i,j}-\bar{A})(B_{i,j}-\bar{B})}{\sqrt{\sum_{i,j}(A_{i,j}-\bar{A})^{2}}\sqrt{\sum_{i,j}(B_{i,j}-\bar{B})^{2}}} pers(A,B)=i,j(Ai,jAˉ)2 i,j(Bi,jBˉ)2 i,j(Ai,jAˉ)(Bi,jBˉ)

将两个没有差异的特征之间的距离设置为 1。接下来就要看图了,作者图画的非常清晰明了。看下面的3张

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

这些图什么意思呢?
其实就是计算两个特征之间的距离,对角线上的等于自己和自己的距离为1,而且这是一个对称矩阵,即你到我的距离和我到你的距离是一样的,接下来作者就只分析了下三角。通过Fig.4可以明白,利用约束距离矩阵𝑀𝑐,可以对分解过程施加整体约束。怎么操作呢?将左下角的值近似等于源图像之间的距离。对于剩余的距离,让它们沿着主对角线到左下角的方向从 1 衰减到 𝜇(用高斯衰减的方法)。
作者定义了一个目标矩阵𝑀𝑡(Fig.5)
在这里插入图片描述
然后就是利用距离矩阵𝑀𝑐和目标矩阵𝑀𝑡进行约束了。这个损失函数在计算的时候,只需要计算下三角区域,对角线和上三角没必要算。

图3很简单,就是两个特征之间的距离代表的是矩阵里的哪个块,大家可以对比着看。

🔢数据集

  • MSRS
  • TNO
  • M3FD

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

The number of blocks (Encoder and Decoder) and transition states in our model is set to 𝑁 = 3 and 𝐾 = 7. The model width is configured to 8, which corresponds to the number of channels obtained from the linear layer mapping the input source image. Each layer in the CDM contains one State Transformer, and the number of heads in the TSWM is set to 4. We employ average pooling for downsampling and bilinear interpolation for upsampling. For model training, training images are randomly cropped to 192 × 192, with random flipping being the only data augmentation technique used. The batch size and number of epochs are set to 20 and 250, respectively. To mitigate potential instability during training, we implement gradient clipping to prevent the occurrence of gradient explosion. AdamW [38] is utilized as the optimizer, and WarmupCosine serves as the learning rate adjustment strategy. We gradually increase the learning rate from 10−5 to 6 × 10−5 during the first 50 epochs, and subsequently, it is gradually decayed to 5 × 10−6 over the remaining epochs. The proposed Gaussian decay function is employed as the decay strategy (Eq. (9)) to compute the decomposition loss, with hyperparameters 𝛼1 and 𝛼2 both set to 15. Our code is implemented using the PyTorch framework, and all experiments are conducted on a NVIDIA GeForce RTX 3090 Ti.

🔬实验

📏评价指标

  • MI
  • SF
  • AG
  • VIF
  • QABF
  • LIQE
  • TOPIQ
    后面两个指标见的少,给大家介绍一下,这两个都是正指标。
    LIQE 采用图像语言模型来评估图像质量,值越高表示质量越好。
    TOPIQ 利用注意力机制来评估图像中的失真和噪声水平,值越高表示质量越好。

扩展学习
[图像融合定量指标分析]

🥅Baseline

  • SwinFusion
  • DeFusion
  • DDFM
  • IRFS
  • LRRNet
  • GIFuse
  • CrossFuse

✨✨✨扩展学习✨✨✨
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

更多实验结果及分析可以查看原文:
📖[论文下载地址]

🧷总结体会

思路很新,中间那个连续分解的过程,是不是看起来和扩散模型有点像哈哈哈,我感觉都是一步一步这样的
可惜的是作者没有开源代码,而且没有运行时间分析,只有消融实验的参数量对比,没有与其他方法参数量的对比
14356M在IVIF任务中,算是很大的模型了,估计推理速度也会比较慢(因为是一步一步这样的),所以作者没有把这部分放在论文中。
同理,没有与其他模型对比参数量,还是因为Conti-Fuse太大了。


🚀传送门

📑图像融合相关论文阅读笔记

📑[SDCFusion:A semantic-driven coupled network for infrared and visible image fusion]
📑[PSFusion: Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity]
📑[SGFusion: A saliency guided deep-learning framework for pixel-level image fusion]
📑[MUFusion: A general unsupervised image fusion network based on memory unit]
📑[(TLGAN)Boosting target-level infrared and visible image fusion with regional information coordination]
📑[ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss via Meta-Learning]
📑[YDTR: Infrared and Visible Image Fusion via Y-Shape Dynamic Transformer]
📑[CS2Fusion: Contrastive learning for Self-Supervised infrared and visible image fusion by estimating feature compensation map]
📑[CrossFuse: A novel cross attention mechanism based infrared and visible image fusion approach]
📑[(DIF-Net)Unsupervised Deep Image Fusion With Structure Tensor Representations]
📑[(MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion]
📑[(A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration]
📑[(APWNet)Real-time infrared and visible image fusion network using adaptive pixel weighting strategy]
📑[Dif-fusion: Towards high color fidelity in infrared and visible image fusion with diffusion models]
📑[Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion]
📑[LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images]
📑[(DeFusion)Fusion from decomposition: A self-supervised decomposition approach for image fusion]
📑[ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion]
📑[RFN-Nest: An end-to-end resid- ual fusion network for infrared and visible images]
📑[SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images]
📑[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
📑[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
📑[DenseFuse: A fusion approach to infrared and visible images]
📑[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
📑[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
📑[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
📑[IFCNN: A general image fusion framework based on convolutional neural network]
📑[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
📑[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
📑[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
📑[FusionGAN: A generative adversarial network for infrared and visible image fusion]
📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]
📑综述[Visible and Infrared Image Fusion Using Deep Learning]

📚图像融合论文baseline总结

📚[图像融合论文baseline及其网络模型]

📑其他论文

📑[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

🎈其他总结

🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

[图像融合论文及代码整理最全大合集]
[图像融合常用数据集整理]

🌻【如侵权请私信我删除】

如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

图像强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值