图像融合论文阅读:CoCoNet: 基于多层特征集成的耦合对比学习网络多模态图像融合

@article{liu2023coconet,
title={Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion},
author={Liu, Jinyuan and Lin, Runjia and Wu, Guanyao and Liu, Risheng and Luo, Zhongxuan and Fan, Xin},
journal={International Journal of Computer Vision},
pages={1–28},
year={2023},
publisher={Springer}
}


论文级别:SCI A2
影响因子:19.5

📖[论文下载地址]



📖论文解读

作者提出了一种耦合对比学习网络CoCoNet,这是一个【通用】的图像融合网络。
使用耦合对比学习来指导模型区分目标以及纹理细节,并且采用了一种测量机制来计算源图像的比例重要性,以生成数据驱动的权重并应用于损失函数之中。

🔑关键词

image fusion, infrared and visible image, unsupervised learning, contrastive learning
图像融合,红外和可见光图像,无监督学习,对比学习

💭核心思想

保持互补信息,消除冗余信息。
使用数据驱动机制计算信息保留度,以提高融合结果和源图像强度和细节的一致性。
使用多级注意力模块(multi-level attention module ,MAM)避免融合过程中的特征退化。

参考链接
[什么是图像融合?(一看就通,通俗易懂)]

🪢网络结构

作者提出的网络结构如下所示。
在这里插入图片描述

在这里插入图片描述
C A ( ⋅ ) CA(·) CA()是通道注意力
在这里插入图片描述
在这里插入图片描述

🪢耦合对比学习

作者的思路是,将红外图像的显著目标作为正样本,将可见光图像的显著目标作为负样本;同理,将可见光图像的的背景作为正样本,红外图像背景作为负样本。
基于TNO数据集人工标注掩膜,设 M \mathcal M M为前景的显著掩膜, M ˉ \bar {\mathcal M} Mˉ为背景的显著掩膜。
红外图像×前景掩膜可以得到显著目标,可见光图像×背景掩膜得到了背景信息。
在这里插入图片描述
作者选用预训练VGG-19代表G,将此处的损失函数定义为:
在这里插入图片描述
N和M分别为每个正样本的VGG层数和负样本数。
μ i \mu_i μi代表融合图像的前景特征 G i ( I F ⊙ M ) G_i(I_F\odot \mathcal M) Gi(IFM)
μ i + \mu_i^+ μi+ μ i m − \mu_i^{m-} μim分别是正样本和负样本, μ i + = G i ( I R ⊙ M ) \mu_i^+=G_i(I_R\odot \mathcal M) μi+=Gi(IRM) μ i m − = G i ( I V m ⊙ M ) \mu_i^{m-}=G_i(I_V^m \odot \mathcal M) μim=Gi(IVmM)
m m m代表第m个负样本, ∣ ∣ ⋅ ∣ ∣ 1 ||·||_1 ∣∣1是L1范数。
同理,在背景部分,将可见光图像背景作为正样本,红外图像背景作为负样本。细节约束的目标函数为:
在这里插入图片描述
v i v_i vi代表融合图像的背景特征 G i ( I F ⊙ M ˉ ) G_i(I_F\odot \bar {\mathcal M}) Gi(IFMˉ)
v i + v_i^+ vi+ v i m − v_i^{m-} vim分别是正样本和负样本, v i + = G i ( I V m ⊙ M ˉ ) v_i^+=G_i(I_V^m \odot \bar {\mathcal M}) vi+=Gi(IVmMˉ) v i m − = G i ( I R ⊙ M ˉ ) v_i^{m-}=G_i(I_R \odot \bar {\mathcal M}) vim=Gi(IRMˉ)
在这里插入图片描述

📉损失函数

自适应损失函数=结构损失+强度损失

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以往的方法,权重参数都是手工设计的经验值,本文作者设计了一种考虑数据特性的自适应损失。
一方面,为了保留纹理细节,采用平均梯度法(AG)优化SSIM损失的权重参数 σ \sigma σ
在这里插入图片描述
∇ h I F {\nabla _h}{I_F} hIF ∇ v I F {\nabla v}{I_F} vIF分别代表融合图像从水平方向和垂直方向的一阶微分(梯度)
在这里插入图片描述
另一方面,采用图像熵(EN)更新强度损失:
在这里插入图片描述
L L L代表给定图像的灰度值, p x p_x px像素处于对应灰度值的概率。
EN是像素级计算的图像信息量,与MSE约束密切相关,因为MSE约束也是像素级的约束。

在这里插入图片描述
综上,损失函数为
在这里插入图片描述
L i r \mathcal L_{ir} Lir L v i s \mathcal L_{vis} Lvis是两对对比损耗。

🔢数据集

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

🔬实验

📏评价指标

  • EN
  • AG
  • SF
  • SD
  • SCD
  • VIF

参考资料
[图像融合定量指标分析]

🥅Baseline

  • VIF
    • SMoA,FusionGAN, DenseFuse,SDNet,DIDFuse ,SwinFusion,RFN,TarDAL,U2Fusion

✨✨✨参考资料
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

更多实验结果及分析可以查看原文:
📖[论文下载地址]


🚀传送门

📑图像融合相关论文阅读笔记

📑[LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images]
📑[(DeFusion)Fusion from decomposition: A self-supervised decomposition approach for image fusion]
📑[ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion]
📑[RFN-Nest: An end-to-end resid- ual fusion network for infrared and visible images]
📑[SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images]
📑[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
📑[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
📑[DenseFuse: A fusion approach to infrared and visible images]
📑[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
📑[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
📑[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
📑[IFCNN: A general image fusion framework based on convolutional neural network]
📑[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
📑[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
📑[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
📑[FusionGAN: A generative adversarial network for infrared and visible image fusion]
📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]
📑综述[Visible and Infrared Image Fusion Using Deep Learning]

📚图像融合论文baseline总结

📚[图像融合论文baseline及其网络模型]

📑其他论文

📑[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

🎈其他总结

🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

[图像融合论文及代码整理最全大合集]
[图像融合常用数据集整理]

如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~

<think>嗯,用户现在问的是如何实现可见光图像与红外图像融合。首先,我需要确定用户的具体需求和应用场景。可见光和红外图像融合通常用于增强视觉信息,比如在军事、安防、医学成像或者自动驾驶等领域。不同的应用可能需要不同的融合方法,所以可能需要进一步询问用户的具体场景,但根据问题本身,用户可能希望得到一个比较全面的方法概述。 接下来,我需要回顾常见的图像融合方法。传统方法包括多尺度变换(如小波变换、金字塔分解)、基于稀疏表示的方法、基于显著性检测的方法,以及基于神经网络的方法。现在深度学习图像处理领域应用广泛,所以基于深度学习的方法应该也是重点。 然后,用户可能想知道具体的步骤和流程,比如预处理、特征提取、融合策略等。可能需要分步骤解释,同时比较不同方法的优缺点,帮助用户根据实际情况选择合适的方法。 另外,用户可能关心实际操作中的工具或库,比如OpenCV、PyTorch或TensorFlow,这些在实现过程中可能会用到。是否需要推荐一些具体的工具或代码示例呢?但用户没有明确要求代码,所以可能先以方法论为主,必要时提及工具。 还要注意用户的技术背景。如果用户是研究人员,可能需要更详细的算法描述;如果是工程师,可能更关注实现步骤和效果。但问题中没有明确说明,所以保持中立,兼顾理论和实践。 最后,需要提醒用户在实际应用中可能遇到的挑战,比如图像配准问题、不同模态的特征差异、计算资源限制等,以及如何评估融合效果,比如使用客观评价指标(如熵、结构相似性等)和主观视觉评估。 总结来说,回答的结构应该包括传统方法、深度学习方法、融合流程、工具推荐、挑战与解决方案,以及评估方法,确保用户能全面了解实现过程并根据需求选择合适的方法。</think>实现可见光与红外图像融合的核心在于**有效保留可见光纹理细节与红外热辐射特征**,以下是技术实现路径与关键步骤: --- ### **一、基础流程框架** ```mermaid graph TD A[图像配准] --> B[特征提取] B --> C[融合策略设计] C --> D[融合图像重建] D --> E[质量评估] ``` --- ### **二、传统融合方法(无需深度学习)** #### 1. **多尺度变换融合** - **典型方法**: - 小波变换(DWT) - 曲波变换(Curvelet) - 非下采样轮廓波变换(NSCT) - **操作步骤**: 1. 对两幅图像进行多尺度分解 2. 低频系数采用加权平均(如熵值加权) 3. 高频系数取绝对值最大或局部方差对比 4. 逆变换重构融合图像 - **优势**:计算速度快(单图处理约0.3s) - **局限**:易产生伪影(PSNR通常<28dB) #### 2. **稀疏表示融合** - **实现要点**: - 构建过完备字典(如K-SVD训练) -图像块进行稀疏编码 - 选择最大活跃度系数融合 - **代码片段**: ```python from sklearn.decomposition import DictionaryLearning # 可见光/红外图像分块处理 patches_vis = extract_patches(img_vis, patch_size=8) patches_ir = extract_patches(img_ir, patch_size=8) # 联合字典学习 dl = DictionaryLearning(n_components=100) dict_combined = dl.fit(np.vstack([patches_vis, patches_ir])) ``` --- ### **三、深度学习方法(当前主流)** #### 1. **端到端融合网络** - **网络架构示例**: ```mermaid graph LR Input1[可见光] --> Encoder Input2[红外] --> Encoder Encoder --> Fusion_Layer(特征拼接/注意力加权) Fusion_Layer --> Decoder Decoder --> Output[融合图像] ``` - **关键技术**: - **双流编码器**:VGG19前5层(冻结参数) - **注意力机制**:空间注意力+通道注意力 - **损失函数**: ```math \mathcal{L} = \alpha \mathcal{L}_{SSIM} + \beta \mathcal{L}_{grad} + \gamma \mathcal{L}_{intensity} ``` (α=0.6, β=0.3, γ=0.1) #### 2. **生成对抗网络(GAN)** - **创新应用**: - 生成器:U-Net结构,输入可见光+红外 - 判别器:PatchGAN架构 - 对抗损失: ```math \min_G \max_D \mathbb{E}[\log D(y)] + \mathbb{E}[\log(1 - D(G(x))] ``` - **优势**:能生成更符合人眼感知的结果(SSIM提升约15%) --- ### **四、关键挑战与解决方案** | 问题类型 | 具体表现 | 解决方案 | |------------------|----------------------------|----------------------------| | 模态差异 | 可见光反射特性 vs 红外辐射特性 | 采用跨模态特征对齐模块 | | 配准误差 | 空间错位>2像素 | 先进行SIFT+RANSAC配准 | | 细节丢失 | 高频信息模糊 | 添加梯度损失约束 | | 实时性要求 | 处理速度<30fps | 使用轻量级网络(MobileNet) | --- ### **五、评估指标选择** 1. **客观指标**: - 信息熵(EN>6.5为优) - 空间频率(SF>15) - 互信息(MI>2.0) - VIF(Visual Information Fidelity) 2. **主观评价**: - 双盲测试(邀请≥5位领域专家) - 制定评分标准: - 热目标突出性(0-5分) - 纹理细节保留度(0-5分) - 视觉自然度(0-5分) --- ### **六、工具与数据集推荐** - **开发工具**: - Python库:OpenCV, PyTorch, TensorFlow - 专业软件:MATLAB Image Processing Toolbox - **基准数据集**: - TNO Image Fusion Dataset(军事场景) - FLIR ADAS Dataset(自动驾驶) - OSU Color-Thermal Dataset(行人检测) --- **实施建议**:对于初次尝试者,推荐从**加权平均法**起步,逐步过渡到**基于VGG的特征融合**。若追求实时性,可尝试**DenseFuse网络**(推理速度达25fps)。实际部署时需注意红外传感器的噪声抑制(建议加入非局部均值去噪预处理)。
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

图像强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值