图像融合论文阅读：GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF

图像强

已于 2023-12-20 17:38:47 修改

阅读量1.5k

点赞数 21

分类专栏：图像融合文章标签：论文阅读图像处理论文笔记深度学习人工智能

于 2023-12-20 17:21:45 首次发布

本文链接：https://blog.csdn.net/jiexiang5396/article/details/135110073

版权

图像融合专栏收录该内容

37 篇文章 61 订阅

订阅专栏

@article{ma2020ganmcc,
title={GANMcC: A generative adversarial network with multiclassification constraints for infrared and visible image fusion},
author={Ma, Jiayi and Zhang, Hao and Shao, Zhenfeng and Liang, Pengwei and Xu, Han},
journal={IEEE Transactions on Instrumentation and Measurement},
volume={70},
pages={1–14},
year={2020},
publisher={IEEE}
}

论文级别：SCI A2
影响因子：5.6

📖[论文下载地址]

💽[代码下载地址]

📖论文解读

作者提出了多分类约束GAN（GANMcC）用于图像融合，将【图像融合】问题转换为了【多分布同时估计】问题。
使用多分类GAN同时估计可见光和红外域分布，可以优化融合结果。具体来说就是，使用多分类器作为判别器判断输入图像为可见光/红外图像的概率。
将主辅思想运用于梯度和强度信息来构造损失函数。即红外图像中的纹理信息可以作为强度信息的补充，同理可见光图像的强度信息作为纹理信息的补充。

🔑关键词

Deep learning, generative adversarial network(GAN), image fusion, infrared, multiclassification
深度学习，GAN，图像融合，红外，多分类

💭核心思想

使用多分类作为判别器来确定输入图像为可见光/红外图像的概率。

【生成器】希望融合图像的两种【概率都很高】，即判别器认为融合图像【既是】红外图像【也是】可见光图像
【判别器】希望融合图像的两种【概率都很小】，即判别器认为融合图像【即不是】红外图像【也不是】可见光图像

损失函数根据主辅思想，即：
损失=强度损失+梯度损失。每种子损失又分为主要损失+辅助损失

参考链接
[什么是图像融合？（一看就通，通俗易懂）]

🪢网络结构

作者提出的GANMcC网络结构如下图所示。
对比度信息用强度表示，细节信息用梯度表示。
生成器的输入由梯度路径和对比度路径组成。输入图像采用了2：1的concat方法。与PMGI方法相同。
梯度路径=2可见+1红外；对比度路径=2红外+1可见。判别器的输入=红外/可见/融合，输出为可见/红外的概率，是一个1×2的概率向量。
在这里插入图片描述

📉损失函数

📉生成器损失

生成器的损失为内容损失和对抗损失构成，γ是正则化参数，负责维持两项之间的平衡。
在这里插入图片描述

📉内容损失

内容损失引入了主要信息和辅助信息的思想。

红外图像：
- 主要信息是强度信息
- 辅助信息是梯度信息
可见光图像：
- 主要信息是梯度信息
- 辅助信息是强度信息
  
  综上，内容损失的组成有四部分，分别是红外/可见光的主要/辅助损失，即：
  内容损失=主强度损失+主梯度损失+辅助梯度损失+辅助强度损失
  
  上式中，
  即：主>辅，而且梯度损失项>强度损失项

【注意】
作者这里可能笔误了，或者我理解的有问题，大家可以看下原文：

在这里插入图片描述

文中写的是，【梯度】损失一般【小于】【强度】损失。
在公式（10）中， $\{\beta_2，\beta_3\}$ 应该对应的是主梯度和辅梯度，即公式描述的意思是【梯度】>【强度】。互相矛盾。文末有投票，大家可以参与投票或者评论区讨论。

📉对抗损失

为了实现信息平衡，将判别器的对抗损失加入到生成器损失函数中：
在这里插入图片描述
$d$ 是判别器生成的融合图像概率标签（1×2的概率向量）。D(·)[1]表示向量的第一项，即融合后的图像为可见图像的概率。同样，D(·)[2]表示向量的第二项，即融合后的图像为红外图像的概率。
对两项使用相同的标签 $d$ ，是为了让判别器判断融合图像为可见/红外的概率相同。
此处，因为生成器希望判别器分辨不出融合图像和真实图像，因此d设置为1
【为什么 $d$ 设置为1？】
因为优化器会让损失函数变小，概率的值为0~1，最理想的情况下，生成器希望判别器认为融合图像既是可见图像也是红外图像，即希望D(·)[n]的值均为1，所以d为1时，损失函数为0，达到最小

📉判别器损失

判别器是多分类器，损失函数数由三部分组成：
在这里插入图片描述
令 $P_{vis}=D(x)[1]$ 和 $P_{ir}=D(x)[2]$ 。
当判别器输入为可见光图像时，希望 $P_{vis}$ 接近1， $P_{ir}$ 接近0。

$a_1$ 和 $a_2$ 是概率标签， $a_1=1$ 、 $a_2=0$ 。设置原因可以参考上面的分析得出。
同理，红外图像损失函数如下式：
在这里插入图片描述
此处 $b_1=0$ 、 $b_2=1$ 。