模型出处
论文名称:DenseFuse: A Fusion Approach to Infrared and Visible Images
参考代码:https://github.com/hli1221/imagefusion densefuse
一、模型简介
该模型提供了一种红外和可见光的图像融合方法——Densefuse。传统的一些基于CNN的图像融合方法,只使用最后一层的结果作为图像特征,但是这样会丢失大量的中间的有用信息。而对于DenseFuse这种方法来说,它的主要区别就在于编码器中的DenseBlock,它的特点是:DenseBlock中每一层的输出都会作为后面的输入,这样中间层的输出特征就会得到保留,使图像融合产生更好的效果。
二、网络结构
如图所示,该模型主要有三部分:编码器、融合层、解码器。
编码器主要有两部分:C1和DenseBlock。其中C1包含一个3×3的滤波器,主要用来粗略提取特征;DenseBlock包含三个的卷积层,每个卷积层的输出级联到后面卷积层的输入,以保证中间的输出特征不丢失。码器的体系结构具有两个优点。首先,滤波器的大小和卷积运算的步幅分别为3×3和1。使用此策略,输入图像可以是任何大小。其次,DenseBlock可以在编码网络中尽可能保留深度特征,并且该操作可以确保融合策略中使用所有显著特征。
融合层主要采用两种策略:相加策略和L1范数策略,后面会介绍
解码器有四个卷积层同样是3×3的卷积块,主要使用于重建输入图像。
如图表示的使各层卷积网络中的卷积块大小、步长、特征图通道数以及激活函数。
三、训练
如图所示,在训练阶段,我们将融合层抛弃,只考虑编码器和解码器网络。在其中我们试图训练我们的编码器和解码器网来重建输入图像。在确定编码器和解码器的权重后,我们使用自适应融合策略来融合编码器获得的深层特征。
1.损失函数
图像损失由像素损失函数(Lp)和结构相似性损失函数(Lssim)加权得到,
其中O和I分别表示输出图像和输入图像。Lp是输出O和输入I之间的欧几里得距离,SSIM(O,I)表示结构相似性,它表示两个图像的结构相似性。 由于像素损失和SSIM损失之间存在三个数量级的差异,因此在训练阶段,将λ 分别设置为1、10、100和1000。
2.融合策略
- 相加策略
如图,其中m表示第m个通道,k表示第k种数据。fm表示融合结果。公式如下:
就是对应像素点位置直接相加。 - L1范数策略
如图所示,m表示第m个通道,k表示第k个数据。
初始作用图Ci计算方式
在进行范围平均
其中r = 1决定一个像素是由以其为中心的3×3的范围内进行平均得到。
最后进行融合图生成:
四、结果分析
下图展示了训练过程,像素损失(a),SSIM损失(b)和总损失(c)的变化图。 水平轴上的每个点表示100个Epoch,作者选择前5000次迭代。并且“蓝色”为λ = 1;“红色”为λ = 10 ;“绿色”为λ = 100;“黄色”为λ = 1000 。
下图展示了验证过程,像素损失(a)和SSIM损失(b)的变化图。
在训练阶段,作者使用MS-COCO作为输入图像。在这些源图像中,约有79000张图像被用作输入图像,在每次迭代中使用1000张图像来验证重构能力。
在训练过程的损失函数变化所示,在前2000次迭代中,随着SSIM损失权重λ λλ数值指数的增加,网络具有快速收敛性。 像素损失和SSIM损失之间的数量级是不同的。当λ λλ增大时,SSIM损失在训练阶段起着更重要的作用。
在验证过程中,作者从MS-COCO中选择1000张图像作为训练网络的输入。 利用像素损失和SSIM评估重建能力。 从验证过程的损失函数可以看出,验证图显示SSIM损耗随λ λλ的增加而起重要作用。 当迭代次数增加到500时,将λ λλ设置为较大的值时,像素损失和SSIM会达到更好的值。但是,当迭代次数大于40000时,无论选择哪种损失权重,都会获得最佳权重。所以,网络在早期训练阶段会随着λ λλ的增加而获得更快的收敛速度,较大的λ λλ将减少训练阶段的时间消耗。
五、评价指标
在本文中,作者指定了七个标准来对DenseFuse进行图像融合评价。
- 熵(En)
- Qabf(融合质量)
- SCD(差异相关性之和)
- FMIdct 和 FMIw :分别计算小波特征和离散余弦特征的互信息(FMI)
- SSIMa :无参考图像的结构相似度
- MS_SSIM:无参考图像融合性能指标
SSIMa(F)=(SSIM(F,I1)+SSIM(F,I2))×0.5
其中,SSIM(⋅) 表示结构相似性操作,F是融合图像,I1、I2 是源图像。 SSIMa 表示保留结构信息的能力
下表中质量指标的最佳值以粗体表示,次优值以蓝色和斜体表示。这意味着作者的网络是红外和可见光图像融合的有效架构。
如表所示,该方法采用加法策略和L1范数策略具有5个最佳平均值(En、Qafb、SCD、FMIdct、SSIMa),两个次优值(FMIw、MS_SSIM)。
在FMIdct、SSIMa中具有最佳值,这表明该方法保留了更多的结构信息和特征。由于En、Qabf和SCD的最佳值,该方法获得的融合图像更自然,并且包含较少的人工噪声。