图像融合论文阅读:(TLGAN)Boosting target-level IVIF with regional information coordination

@article{han2023boosting,
title={Boosting target-level infrared and visible image fusion with regional information coordination},
author={Han, Mina and Yu, Kailong and Qiu, Junhui and Li, Hao and Wu, Dan and Rao, Yujing and Yang, Yang and Xing, Lin and Bai, Haicheng and Zhou, Chengjiang},
journal={Information Fusion},
volume={92},
pages={268–288},
year={2023},
publisher={Elsevier}
}


论文级别:SCI A1 TOP
影响因子:18.6

📖[论文下载地址]
💽[代码下载地址](暂无)



📖论文解读

大家好,好久不见~
今天给大家带了论文是《Boosting target-level infrared and visible image fusion with regional information coordination》,通过区域信息协调(regional information coordination)促进目标级IVIF。咱们话不多说,发车啦

现有的方法【倾向于评估全局信息】,忽略了【特征提取过程中】对【特定目标信息】的保留,导致了一定程度的信息丢失。
为了解决这个问题,作者提出了一种【目标级】的IVIF方法,通过【场景纹理关注模块】增强全局信息的互补描述,通过利用加入【目标级损失函数】的【目标提取模块】保留目标区域特征,并通过【目标-场景信息损失函数】的协调,实现了目标信息和场景信息的均衡。

值得一提的是,以往多数方法选取的高级计算机视觉任务是目标检测或语义分割,而本文选取了目标检测+【深度估计】,比较少见。

大家都知道,以往的IVIF方法,【红外图像】提供【显著热目标信息】,【可见光图像】提供【背景纹理细节信息】
这句话应该听过很多次了吧,可是作者说,并不全是这样的,下图可见光图像就被【烟雾】【强光污染】影响的很厉害,纹理信息丢失严重
在这里插入图片描述

同理,使用语义信息指导图像融合的方法也有类似的问题
在这里插入图片描述

🔑关键词

Image fusion 图像融合
Target-level 目标级
Scene information 场景信息
High-level vision tasks 高级视觉任务

💭核心思想

如何在重点关注目标信息融合的同时,提高现场红外图像与可见光图像的信息互补性,是目标信息融合研究面临的新挑战。核心是在丰富全局场景信息的同时增强目标的信息融合,为后续的高级视觉任务提供稳定、丰富的融合特征。

从功能上讲,

LTE模块的作用是指定要保留的特定信息。
GDA模块的作用是帮助网络保留来自目标区域的信息,而不会忽略来自全局场景的其他信息。

这两个模块的共同作用突出了目标的信息,保证了全局场景信息的完整性。


🎖️本文贡献

  • 结合目标提取模块(LTE)场景纹理关注模块(GDA),设计了基于GAN的目标级IVIF方法TLGAN
  • 目标提取模块,利用两分支网络同时提取红外和可见光图像中的目标区域。同时,引入目标级损失函数来指导目标信息的保留和重建,提高了融合网络的目标捕获能力,极大地消除了现有方法假设导致的目标区域纹理弱、对比度低的问题
  • 场景纹理关注模块,利用混合高斯模型获取红外和可见光图像中不同语义的纹理特征。红外图像可提供场景纹理信息进行补充,有效解决可见光图像受到污染(如强光、烟雾)时场景信息丢失的问题。
  • 目标-场景信息损失函数协调,在尽可能丰富全局场景信息表达的同时,关注目标级信息融合,增强融合结果中目标和场景的对比。

🪅相关背景知识

  • 深度学习
  • 神经网络
  • 图像融合
  • 高级计算机视觉任务(目标检测、深度估计)

扩展学习
[什么是图像融合?(一看就通,通俗易懂)]

🪢网络结构

作者提出的网络结构如下所示。

在这里插入图片描述

看起来不是很难的亚子,变种GAN,在【生成器】里面加入目标提取模块(LTE)场景纹理关注模块(GDA)
既然是GAN,那么生成器和判别器必然是不可能少滴
先说输入, I v I_v Iv是三通道的可见光图像, I r I_r Ir红外图像, I f I_f If融合图像。
v t a r g e t v_{target} vtarget r t a r g e t r_{target} rtarget分别代表可见光图像和红外图像的目标区域

🪢生成器

总网络结构图里生成器是竖着的,看着不习惯,详细介绍这里作者很贴心的放横了

在这里插入图片描述
我们先看绿色的场景纹理关注模块(GDA),如下图
在这里插入图片描述
看起来是什么?来,大声的告诉我!!!!
【注意力机制】!!!!!!
是的,这篇文章和大多数方法一样,还是没有逃脱【注意力机制】的诱惑
作者给出的解释是:通过GDA模块获得的关注图像不仅增强了目标区域的信息,还丰富了目标外全局场景的纹理细节和亮度信息。
说白了就是生成了七张注意力图

GDA的输入是不同模态的源图像,通过卷积层编码,然后通过【特殊全局细节信息注意算法】(超级无敌宇宙第一究极模块?😊)强化特征图中的特征信息

至于这个宇宙无敌超级究极特殊全局细节信息注意算法,
在这里插入图片描述

I I I是单通道的图像, I m I_m Im表示第m个特征图的w*h像素
首先
在这里插入图片描述

这个 Z m n t Z^t_{mn} Zmnt是啥呢?就是t次迭代时,第n个单模态对第m个特征图 I m I_m Im,核函数如下:
在这里插入图片描述
上面说的这一堆东西,将通过后续步骤迭代更新:
在这里插入图片描述
μ \mu μ和上面说的 Z m n t Z^t_{mn} Zmnt的均值
在这里插入图片描述
最终收敛的时候,就得到了注意力图 I m I_m Im
训练过程的伪代码如下
在这里插入图片描述

粉色的LTE如下图
在这里插入图片描述

这个东西看起来是什么东西!!!大声的告诉我!!!!
【编解码器】!!!!!!!
通过【两分支】的编码器【分别】提取特征最后经过解码器的softmax得到目标区域

🪢判别器

作者受GANMcC启发,设计了一个加入【跳跃连接】的【两分类】判别器
一方面,这种设计避免了单一分类器对两类源图像【信息保留不平衡】的问题。
另一方面,【跳跃连接】【丰富了特征图中的特征信息】,使两类判别结果更加准确。

在这里插入图片描述

📉损失函数

📉目标级损失函数

作者的一个创新点就是目标级损失函数,以限制目标区域和场景区域之间的信息保留程度。公式如下

在这里插入图片描述
⊙是两个图像的哈达玛积,∇老样子是梯度

📉传统损失函数

还有一个传统损失:
在这里插入图片描述

📉熵损失函数

在这里插入图片描述

📉内容损失函数

在这里插入图片描述

📉对抗损失函数

在这里插入图片描述

📉总损失函数

目标-场景信息损失函数的协调

在这里插入图片描述
当然,还有判别器的损失

📉两分类判别器损失函数

在这里插入图片描述
其中
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

🔢数据集

  • M3FD
  • MFNet
  • TNO
  • ROADSCENE

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

在这里插入图片描述

🔬实验

📏评价指标

  • VIF
  • MSE
  • EN
  • SF
  • SD
  • AG
  • PSNR
  • NAB/F
  • QAB/F

扩展学习
[图像融合定量指标分析]

🥅Baseline

  • GTF
  • MDLatLRR
  • FusionGAN
  • GANMcC
  • IFCNN
  • RFN
  • U2Fusion
  • DDcGAN
  • DIDFuse
  • MFEIF
  • SeAFusion
  • TarDAL

✨✨✨扩展学习✨✨✨
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

更多实验结果及分析可以查看原文:
📖[论文下载地址]

🧷总结体会

解决了我一直存在的问题,就是人在烟雾弹后面,可见光图像纹理细节丢失极其严重的场景下,IVIF融合性能大幅下降的现象
作者提出的方法很巧妙,有效改善了这个问题
并且,对于与高级计算机视觉任务结合的方面
作者选择深度估计作为任务之一,很有想法


🚀传送门

📑图像融合相关论文阅读笔记

📑[ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss via Meta-Learning]
📑[YDTR: Infrared and Visible Image Fusion via Y-Shape Dynamic Transformer]
📑[CS2Fusion: Contrastive learning for Self-Supervised infrared and visible image fusion by estimating feature compensation map]
📑[CrossFuse: A novel cross attention mechanism based infrared and visible image fusion approach]
📑[(DIF-Net)Unsupervised Deep Image Fusion With Structure Tensor Representations]
📑[(MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion]
📑[(A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration]
📑[(APWNet)Real-time infrared and visible image fusion network using adaptive pixel weighting strategy]
📑[Dif-fusion: Towards high color fidelity in infrared and visible image fusion with diffusion models]
📑[Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion]
📑[LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images]
📑[(DeFusion)Fusion from decomposition: A self-supervised decomposition approach for image fusion]
📑[ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion]
📑[RFN-Nest: An end-to-end resid- ual fusion network for infrared and visible images]
📑[SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images]
📑[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
📑[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
📑[DenseFuse: A fusion approach to infrared and visible images]
📑[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
📑[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
📑[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
📑[IFCNN: A general image fusion framework based on convolutional neural network]
📑[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
📑[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
📑[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
📑[FusionGAN: A generative adversarial network for infrared and visible image fusion]
📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]
📑综述[Visible and Infrared Image Fusion Using Deep Learning]

📚图像融合论文baseline总结

📚[图像融合论文baseline及其网络模型]

📑其他论文

📑[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

🎈其他总结

🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

[图像融合论文及代码整理最全大合集]
[图像融合常用数据集整理]

🌻【如侵权请私信我删除】

如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~

  • 30
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

图像强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值