目录
FusionGAN: A generative adversarial network for infrared and visible image fusion 用于红外与可见光图像融合的生成对抗网络
2024/3/6 Hello, 宝子们!今天一起学习一篇新的图像融合的经典论文~ 这篇真的很绝,首次将GAN网络引入到红外与可见光图像融合中。
介绍
本论文提出了一种使用生成对抗网络的融合方法,称为FusionGAN。
建立一个发电机和一个传感器之间的对抗游戏,其中发电机的目的是生成一个融合图像的主要红外强度连同额外的可见光梯度,传感器的目的是迫使融合图像有更多的细节存在于可见光图像,这使得最终的融合图像能够同时保持红外图像中的热辐射和可见光图像中的纹理。
FusionGAN是一个端对端的模型,避免了传统方法中手动设计复杂的活动水平测量和融合规则。
深度卷积GAN(DCGAN)将一类CNN引入到GAN
最小二乘生成对抗网络(LSGAN)克服了常规GAN中的梯度消失问题,在学习过程中更加稳定
主要贡献
1、第一次采用GAN来解决图像融合任务,提出的FusionGAN是一个端到端的模型,其中融合图像可以从输入源图像自动生成,无需手动设计活动水平测量或融合规则;
2、设计了一个专门用于红外与可见光图像融合的损失函数;
3、将提出的FusionGAN推广到融合不同分辨率的源图像。
模型分析
1、常规GAN
GAN框架有两个对抗模型组成:生成模型G和判别模型D。生成模型可以捕获数据分布,而判别模型可以估计样本来自训练数据而不是G的概率,也就是说GAN在样本和生成器之间建立对抗博弈。
D必须在训练期间与G很好的同步,因此,常规的GAN是不稳定的,很难通过常规GAN训练出一个好的模型。
2、深度卷积GANs(DCGANs)
弥合用于监督学习的CNN和用于无监督学习的GANs之间的差距。由于传统的GAN不稳定,无法训练出好的模型,因此CNN架构应该进行适当的设计,使得GAN更加稳定。
与传统的CNN相比,主要有5个不同之处:(1)池化层没有在生成器和编译器中使用,取而代之的是,步幅卷积被应用在卷积中以学习其自身的空间下采样,并且分数步幅卷积被用于生成器中实现上采样;(2)将batchnormalization层引入到生成器和并行处理器中。由于糟糕的初始化往往会产生很多训练问题,因此batchnormalization层能够解决这些问题,并避免在更深的模型中消失梯度。(3)在更深的模型中删除完全连接的层;(4)除了最后一个激活层,生成器中所有激活层都是整流线性单元(ReLU),最后一层是双曲正切激活;(5)所有的激活层都是泄露的ReLU激活。
3、最小二乘GAN(LAGAN)
目标函数:
在LSGAN中,惩罚距离决策边界较远的样本,使生成器生成的样本更接近决策边界,生成更多的梯度。因此,LSGAN比常规的GAN有两个优势:(1)LSGAN可以生成比常规GAN更高质量的图像;(2)LSGAN在训练过程中比常规GAN表现得更加稳定。
方法
网络架构
网络结构由两部分组成,即:生成器和存储器。
1、生成器的网络结构:
卷积神经网络是一个简单的五层卷积神经网络。其中第一层和第二层使用5*5滤波器,第三层和第四层使用3*3滤波器,最后一层使用1*1滤波器。
为了提高生成图像的多样性,许多工作通常先通过卷积层提取输入图像的特征图,然后通过转置卷积层重建与输入图像大小相同的图像。对于红外和可见光图像融合,每个下采样过程都会丢失源图像中的一些细节信息,这对融合很重要。因此,只引入卷积层而不进行下采样,这也可以保持输入和输出的大小相同,所以转置卷积层在网络中是不必要的。
为了避免梯度消失的问题,我们遵循深度卷积GAN的规则进行批量归一化和激活函数;
为了克服对数据初始化的敏感性,前四层采用了批量归一化,批量归一化层可以使模型更加稳定,也可以帮助梯度有效的反向传播到每一层;对于激活函数,在前四层使用Leaky ReLU激活函数,最后一层使用tanh激活函数。
2、存储器的结构
神经网络架构是一个简单的五层卷积神经网络,第一层到第四层,卷积层中使用3*3滤波器,并将步幅设置为2,不适用填充。这和生成器网络不同,因为图像处理器是一个分类器,首先从输入图像中提取特征图,然后对其进行分类,所以它的工作方式与池化层相同,将步幅设置为2。
为了不引入噪声,只在第一层对输入图像进行填充操作,其余三个卷积层不进行填充,第二层到第四层,使用批量归一化层;并且在前四层使用Leaky ReLU激活函数,最后一层是线性层,主要用于分类。
--------------------------------以上为个人的学习笔记,也希望能给各位图像融合的宝子们一些帮助~