DenseFuse：红外和可见图像的融合方法

最新推荐文章于 2024-05-20 09:32:23 发布

Change_ZH

最新推荐文章于 2024-05-20 09:32:23 发布

阅读量2.4w

点赞数 48

分类专栏：深度学习文章标签：计算机视觉深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/qq_36449741/article/details/104776319

版权

深度学习专栏收录该内容

60 篇文章 53 订阅

订阅专栏

📝论文下载地址

[DenseFuse论文地址]

🔨代码下载地址

[GitHub-unofficial]

👨‍🎓论文作者

Hui Li and Xiao-Jun Wu

📦模型讲解

[论文解读]

在本文中，作者提出了一种针对红外和可见光图像融合问题的新型深度学习体系结构。与传统的卷积网络相比，编码网络与卷积层，融合层和密集块相结合，其中每一层的输出彼此相连。作者尝试使用此体系结构在编码过程中从源图像中获取更多有用的feature，并设计了两个融合层（融合策略）以融合feature。最后，通过解码器重建融合图像。与现有融合方法相比，该融合方法在客观和主观评估方面均达到了最新水平。

[网络结构]

输入的红外图像和可见图像（灰度图像）表示为 $I_1，...，I_k$ 且k≥2。请注意，输入图像已预先配准对齐。索引 $(1 ， . . . ， k)$ 与输入图像的类型无关，这意味着 $I_i$ $(i = 1 ， . . . ， k)$ 可以视为红外图像或可见图像。网络架构包含三个部分：编码器，融合层和解码器。所建议的网络架构如下图所示。

如上图所示，编码器包含两个部分（C1和DenseBlock），用于提取深度特征。第一层（C1）包含3×3卷积以提取粗糙特征，而DenseBlock包含三个卷积层（每个层的输出级联为随后的层的输入），其中也包含3×3卷积。编码器的体系结构具有两个优点。首先，滤波器的大小和卷积运算的步幅分别为3×3和1。使用此策略，输入图像可以是任何大小。其次，DenseBlock可以在编码网络中尽可能保留深度特征，并且该操作可以确保融合策略中使用所有显著特征。解码器包含四个卷积层（3×3卷积）。融合层的输出将是解码器的输入。使用这种简单有效的架构来重构最终融合的图像。

[损失函数]

作者采用了以下损失函数，由像素损失函数 $L_p$ 和结构相似性损失函数 $L_{ssim}$ 加权得到：
$L_p=||O-I||_2$ $L_{ssim}=1-SSIM(O,I)$ $L=λL_{ssim}+L_p$
其中O和I分别表示输出图像和输入图像。 $L_p$ 是输出O和输入I之间的欧几里得距离， $S S I M (\cdot)$ 表示结构相似性，它表示两个图像的结构相似性。由于像素损失和SSIM损失之间存在三个数量级的差异，因此在训练阶段，将 $λ$ 分别设置为1、10、100和1000。

[训练过程]

在训练阶段，作者只考虑编码器和解码器网络（融合层被丢弃），尝试训练编码器和解码器网络以重建输入图像。固定编码器和解码器权重后，采用自适应融合策略融合编码器获得的深层特征。下图展示了在训练阶段网络的详细结构。

下表概述了网络的体系结构。

训练阶段的目的是训练具有更好特征提取和重构能力的自动编码器网络（编码器，解码器）。由于红外和可见光图像的训练数据不足，使用MS-COCO的灰度图像来训练模型并且所有图像均被调整为 $256 \times 256$ 大小并转换为灰度图像。学习率设置为 $1×10^{-4}$ 。Batch_size和Epoch分别为2和4。

[融合策略]

相加策略流程如下图所示。测试阶段，在编码器和解码器网络后，将两个输入图像分别输入编码器。作者选择两种融合策略（加法和l1-范数策略）融合编码器获得的特征图。

[相加策略]

其中 $\phi_{k}^{m}$ 表示第 $k$ 种数据的第 $m$ 通道， $\in \{1,2,...,64\},k \ge 2$ ， $f_m$ 为融合结果，满足：
$f_m=\sum_{i=1}^{k}\phi_i^m(x,y)$

[L1范数策略]

作者在网络中应用了基于L1范数和softmax运算的新策略。这种策略的示意图如下图所示。在图中，特征图由 $φ^m_i$ 表示，作用程度的图像 $\hat{C}_{i}$ 将由L1范数和基于块的平均算子计算，而 $f_m$ 还是表示融合的特征图。L1范数可以作为特征图的作用程度的度量。因此，由下式计算的初始作用程度图 $C_i$
$C_i(x,y)=||\phi_i^{1:M}(x,y)||_1$
然后根据下式进行范围内的平均：
$\hat C_i(x,y)=\frac{\sum^r_{a=-r}\sum^r_{b=-r}C_i(x+a,y+b)}{(2r+1)^2}$
其中 $r = 1$ 决定一个像素是由以其为中心的3×3的范围内进行平均得到。
之后可以通过下式进行融合图生成：
$\begin{aligned} f^{m}(x, y) &=\sum_{i=1}^{k} w_{i}(x, y) \times \phi_{i}^{m}(x, y) \\ w_{i}(x, y) &=\frac{\hat{C}_{i}(x, y)}{\sum_{n=1}^{k} \hat{C}_{n}(x, y)} \end{aligned}$

[结果分析]

[训练阶段]

下图展示了训练过程，像素损失（a），SSIM损失（b）和总损失（c）的变化图。水平轴上的每个点表示100个Epoch，作者选择前5000次迭代。并且“蓝色”为 $λ = 1$ ；“红色”为 $λ ＝ 10$ ； “绿色”为 $λ ＝ 100$ ；“黄色”为 $λ = 1000$ 。

下图展示了验证过程，像素损失（a）和SSIM损失（b）的变化图。

在训练阶段，作者使用MS-COCO作为输入图像。在这些源图像中，约有79000张图像被用作输入图像，在每次迭代中使用1000张图像来验证重构能力。
在训练过程的损失函数变化所示，在前2000次迭代中，随着SSIM损失权重 $λ$ 数值指数的增加，网络具有快速收敛性。像素损失和SSIM损失之间的数量级是不同的。当 $λ$ 增大时，SSIM损失在训练阶段起着更重要的作用。
在验证过程中，作者从MS-COCO中选择1000张图像作为训练网络的输入。利用像素损失和SSIM评估重建能力。从验证过程的损失函数可以看出，验证图显示SSIM损耗随 $λ$ 的增加而起重要作用。当迭代次数增加到500时，将 $λ$ 设置为较大的值时，像素损失和SSIM会达到更好的值。但是，当迭代次数大于40000时，无论选择哪种损失权重，都会获得最佳权重。所以，网络在早期训练阶段会随着 $λ$ 的增加而获得更快的收敛速度，较大的 $λ$ 将减少训练阶段的时间消耗。

[实验设置]

在作者的实验中，从其他论文收集了输入图像 $k = 2$ 的源红外和可见图像。作者的方法与几种典型的融合方法进行了比较，包括交叉双边滤波融合方法（CBF），联合稀疏表示模型（JSR），梯度转移和总变异最小化（GTF），显着性检测融合方法（JSRSD）的JSR模型，基于深度卷积神经网络的方法（CNN）和DeepFuse方法（DeepFuse）。在作者的实验中，DeepFuse方法的卷积大小设置为3×3。

[评价指标]

为了在融合方法上和其他现有算法之间进行定量比较，作者使用了七个质量度量。它们是：
①熵(En);
②Qabf：差异相关性之和(SCD)；
③ $FMI_w$ 和 $FMI_{dct}$ ，分别计算小波特征和离散余弦特征的互信息(FMI)；
④修改无参考图像的结构相似度( $SSIM_a$ )；以及新的无参考图像融合性能指标( $MS\_SSIM$ )。由下式计算出的 $SSIM_a$ :
$SSIM_a(F)=(SSIM(F,I_1)+SSIM(F,I_2))×0.5$
其中， $S S I M (\cdot)$ 表示结构相似性操作， $F$ 是融合图像， $I_1$ 、 $I_2$ 是源图像。 $SSIM_a$ 的值表示保留结构信息的能力。
融合性能随着所有这七个指标的增加而提高。