图像融合笔记（一）：DenseFuse

qq_49641705

已于 2023-07-19 19:31:55 修改

阅读量1.8k

点赞数 4

文章标签：笔记

于 2023-07-19 12:15:10 首次发布

本文链接：https://blog.csdn.net/qq_49641705/article/details/131801277

版权

DenseFuse是一种基于DenseBlock的红外和可见光图像融合模型，通过保留中间层特征提升融合效果。模型包括编码器、融合层和解码器，训练时采用像素损失和结构相似性损失函数。实验表明，DenseFuse在多个评价指标上表现出色，尤其在结构信息保留和图像自然度方面。

摘要由CSDN通过智能技术生成

模型出处

论文名称：DenseFuse: A Fusion Approach to Infrared and Visible Images
参考代码：https://github.com/hli1221/imagefusion densefuse

一、模型简介

该模型提供了一种红外和可见光的图像融合方法——Densefuse。传统的一些基于CNN的图像融合方法，只使用最后一层的结果作为图像特征，但是这样会丢失大量的中间的有用信息。而对于DenseFuse这种方法来说，它的主要区别就在于编码器中的DenseBlock，它的特点是：DenseBlock中每一层的输出都会作为后面的输入，这样中间层的输出特征就会得到保留，使图像融合产生更好的效果。

二、网络结构

在这里插入图片描述
如图所示，该模型主要有三部分：编码器、融合层、解码器。
编码器主要有两部分：C1和DenseBlock。其中C1包含一个3×3的滤波器，主要用来粗略提取特征；DenseBlock包含三个的卷积层，每个卷积层的输出级联到后面卷积层的输入，以保证中间的输出特征不丢失。码器的体系结构具有两个优点。首先，滤波器的大小和卷积运算的步幅分别为3×3和1。使用此策略，输入图像可以是任何大小。其次，DenseBlock可以在编码网络中尽可能保留深度特征，并且该操作可以确保融合策略中使用所有显著特征。
融合层主要采用两种策略：相加策略和L1范数策略，后面会介绍
解码器有四个卷积层同样是3×3的卷积块，主要使用于重建输入图像。
在这里插入图片描述
如图表示的使各层卷积网络中的卷积块大小、步长、特征图通道数以及激活函数。

三、训练

在这里插入图片描述
如图所示，在训练阶段，我们将融合层抛弃，只考虑编码器和解码器网络。在其中我们试图训练我们的编码器和解码器网来重建输入图像。在确定编码器和解码器的权重后，我们使用自适应融合策略来融合编码器获得的深层特征。

1.损失函数

在这里插入图片描述
图像损失由像素损失函数（Lp）和结构相似性损失函数(Lssim)加权得到,
其中O和I分别表示输出图像和输入图像。Lp是输出O和输入I之间的欧几里得距离，SSIM(O,I)表示结构相似性，它表示两个图像的结构相似性。由于像素损失和SSIM损失之间存在三个数量级的差异，因此在训练阶段，将λ 分别设置为1、10、100和1000。

2.融合策略

相加策略

如图，其中m表示第m个通道，k表示第k种数据。fm表示融合结果。公式如下：

就是对应像素点位置直接相加。
L1范数策略

在这里插入图片描述

如图所示，m表示第m个通道，k表示第k个数据。
初始作用图Ci计算方式
在这里插入图片描述
在进行范围平均

其中r = 1决定一个像素是由以其为中心的3×3的范围内进行平均得到。
最后进行融合图生成：

四、结果分析

下图展示了训练过程，像素损失（a），SSIM损失（b）和总损失（c）的变化图。水平轴上的每个点表示100个Epoch，作者选择前5000次迭代。并且“蓝色”为λ = 1；“红色”为λ ＝ 10 ；“绿色”为λ ＝ 100；“黄色”为λ = 1000 。
在这里插入图片描述
下图展示了验证过程，像素损失（a）和SSIM损失（b）的变化图。
在训练阶段，作者使用MS-COCO作为输入图像。在这些源图像中，约有79000张图像被用作输入图像，在每次迭代中使用1000张图像来验证重构能力。
在训练过程的损失函数变化所示，在前2000次迭代中，随着SSIM损失权重λ λλ数值指数的增加，网络具有快速收敛性。像素损失和SSIM损失之间的数量级是不同的。当λ λλ增大时，SSIM损失在训练阶段起着更重要的作用。
在验证过程中，作者从MS-COCO中选择1000张图像作为训练网络的输入。利用像素损失和SSIM评估重建能力。从验证过程的损失函数可以看出，验证图显示SSIM损耗随λ λλ的增加而起重要作用。当迭代次数增加到500时，将λ λλ设置为较大的值时，像素损失和SSIM会达到更好的值。但是，当迭代次数大于40000时，无论选择哪种损失权重，都会获得最佳权重。所以，网络在早期训练阶段会随着λ λλ的增加而获得更快的收敛速度，较大的λ λλ将减少训练阶段的时间消耗。

五、评价指标

在本文中，作者指定了七个标准来对DenseFuse进行图像融合评价。

熵（En）
Qabf(融合质量)
SCD（差异相关性之和）
FMIdct 和 FMIw ：分别计算小波特征和离散余弦特征的互信息(FMI)
SSIMa ：无参考图像的结构相似度
MS_SSIM：无参考图像融合性能指标
SSIMa(F)=(SSIM(F,I1)+SSIM(F,I2))×0.5
其中，SSIM(⋅) 表示结构相似性操作，F是融合图像，I1、I2 是源图像。 SSIMa 表示保留结构信息的能力

下表中质量指标的最佳值以粗体表示，次优值以蓝色和斜体表示。这意味着作者的网络是红外和可见光图像融合的有效架构。
在这里插入图片描述
如表所示，该方法采用加法策略和L1范数策略具有5个最佳平均值（En、Qafb、SCD、FMIdct、SSIMa），两个次优值（FMIw、MS_SSIM）。
在FMIdct、SSIMa中具有最佳值，这表明该方法保留了更多的结构信息和特征。由于En、Qabf和SCD的最佳值，该方法获得的融合图像更自然，并且包含较少的人工噪声。

qq_49641705

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
图像融合笔记（一）：DenseFuse

该模型提供了一种红外和可见光的图像融合方法——Densefuse。传统的一些基于CNN的图像融合方法，只使用最后一层的结果作为图像特征，但是这样会丢失大量的中间的有用信息。而对于DenseFuse这种方法来说，它的主要区别就在于编码器中的DenseBlock，它的特点是：DenseBlock中每一层的输出都会作为后面的输入，这样中间层的输出特征就会得到保留，使图像融合产生更好的效果。
复制链接

扫一扫