图像融合论文阅读：（TLGAN）Boosting target-level IVIF with regional information coordination_boosting target-level infrared and visible image f-CSDN博客

本文链接：https://blog.csdn.net/jiexiang5396/article/details/135499449

@article{han2023boosting,
title={Boosting target-level infrared and visible image fusion with regional information coordination},
author={Han, Mina and Yu, Kailong and Qiu, Junhui and Li, Hao and Wu, Dan and Rao, Yujing and Yang, Yang and Xing, Lin and Bai, Haicheng and Zhou, Chengjiang},
journal={Information Fusion},
volume={92},
pages={268–288},
year={2023},
publisher={Elsevier}
}

论文级别：SCI A1 TOP

影响因子：18.6

📖[论文下载地址]
💽[代码下载地址]（暂无）

📖论文解读

大家好，好久不见~
今天给大家带了论文是《Boosting target-level infrared and visible image fusion with regional information coordination》，通过区域信息协调（regional information coordination）促进目标级IVIF。咱们话不多说，发车啦

现有的方法【倾向于评估全局信息】，忽略了【特征提取过程中】对【特定目标信息】的保留，导致了一定程度的信息丢失。
为了解决这个问题，作者提出了一种【目标级】的IVIF方法，通过【场景纹理关注模块】增强全局信息的互补描述，通过利用加入【目标级损失函数】的【目标提取模块】保留目标区域特征，并通过【目标-场景信息损失函数】的协调，实现了目标信息和场景信息的均衡。

值得一提的是，以往多数方法选取的高级计算机视觉任务是目标检测或语义分割，而本文选取了目标检测+【深度估计】，比较少见。

大家都知道，以往的IVIF方法，【红外图像】提供【显著热目标信息】，【可见光图像】提供【背景纹理细节信息】
这句话应该听过很多次了吧，可是作者说，并不全是这样的，下图可见光图像就被【烟雾】【强光污染】影响的很厉害，纹理信息丢失严重
在这里插入图片描述

同理，使用语义信息指导图像融合的方法也有类似的问题
在这里插入图片描述

🔑关键词

Image fusion 图像融合
Target-level 目标级
Scene information 场景信息
High-level vision tasks 高级视觉任务

💭核心思想

如何在重点关注目标信息融合的同时，提高现场红外图像与可见光图像的信息互补性，是目标信息融合研究面临的新挑战。核心是在丰富全局场景信息的同时增强目标的信息融合，为后续的高级视觉任务提供稳定、丰富的融合特征。

从功能上讲，

LTE模块的作用是指定要保留的特定信息。
GDA模块的作用是帮助网络保留来自目标区域的信息，而不会忽略来自全局场景的其他信息。

这两个模块的共同作用突出了目标的信息，保证了全局场景信息的完整性。

🎖️本文贡献

结合目标提取模块(LTE)和场景纹理关注模块(GDA)，设计了基于GAN的目标级IVIF方法TLGAN
目标提取模块，利用两分支网络同时提取红外和可见光图像中的目标区域。同时，引入目标级损失函数来指导目标信息的保留和重建，提高了融合网络的目标捕获能力，极大地消除了现有方法假设导致的目标区域纹理弱、对比度低的问题
场景纹理关注模块，利用混合高斯模型获取红外和可见光图像中不同语义的纹理特征。红外图像可提供场景纹理信息进行补充，有效解决可见光图像受到污染(如强光、烟雾)时场景信息丢失的问题。
目标-场景信息损失函数协调，在尽可能丰富全局场景信息表达的同时，关注目标级信息融合，增强融合结果中目标和场景的对比。

🪅相关背景知识

深度学习
神经网络
图像融合
高级计算机视觉任务（目标检测、深度估计）

扩展学习
[什么是图像融合？（一看就通，通俗易懂）]

🪢网络结构

作者提出的网络结构如下所示。

在这里插入图片描述

看起来不是很难的亚子，变种GAN，在【生成器】里面加入目标提取模块(LTE)和场景纹理关注模块(GDA)
既然是GAN，那么生成器和判别器必然是不可能少滴
先说输入， $I_v$ 是三通道的可见光图像， $I_r$ 红外图像， $I_f$ 融合图像。
$v_{target}$ 和 $r_{target}$ 分别代表可见光图像和红外图像的目标区域

🪢生成器

总网络结构图里生成器是竖着的，看着不习惯，详细介绍这里作者很贴心的放横了

在这里插入图片描述
我们先看绿色的场景纹理关注模块(GDA)，如下图

看起来是什么？来，大声的告诉我！！！！
【注意力机制】！！！！！！
是的，这篇文章和大多数方法一样，还是没有逃脱【注意力机制】的诱惑
作者给出的解释是：通过GDA模块获得的关注图像不仅增强了目标区域的信息，还丰富了目标外全局场景的纹理细节和亮度信息。
说白了就是生成了七张注意力图