（CSF）Classiﬁcation Saliency-Based Rule for Visible and Infrared Image Fusion_classification saliency-based rule for visible and-CSDN博客

本文链接：https://blog.csdn.net/m0_47005029/article/details/130379388

1.摘要

由于深度特征图的不可解释性，现有的图像融合方法一直采用手动融合规则，这就限制了网络的性能并且导致失真。针对这些局限性，本文首次以深度学习的方式实现了特征图的可解释重要性评估。我们提出了一种基于像素分类显著性的融合规则。首先，我们采用一个分类器来分类两种类型的源图像，捕获两个类之间的差异和独特性。然后，每个像素的重要性被量化为它对分类结果的贡献。重要性以分类显著图的形式示出。最后，根据显著性图对特征图进行融合以生成融合结果。

2.引言

本篇论文的贡献点：

设计一种新的基于深度学习的融合规则，一般来说，我们采用分类器来分类可见光和红外特征图。然后，我们依靠特征图中每个像素对分类结果的贡献/显著性来评估其重要性/唯一性。从而突破了深度学习应用于融合规则的瓶颈。
现有的基于深度学习的方法需要手动定义要保留的特征，它们执行简单的融合规则，而不考虑特征的重要性或重要性。相比之下，我们的方法依赖于预先训练的分类器来自动保留重要/独特的特征。此外，与现有的融合规则相比，本文提出的基于分类显著性的融合规则具有更高的可解释性，特别是在CNN提取的特征图具有不可解释性的情况下。
此外，与现有的融合规则相比，本文提出的基于分类显著性的融合规则具有更高的可解释性，特别是在CNN提取的特征图具有不可解释性的情况下。

3. 相关工作

现有的VIF

在过去的几十年中，已经提出了许多融合方法的VIF。它们大多基于传统的融合框架。首先，应用多种传统方法从源图像中提取特征，例如多尺度变换、稀疏表示、子空间、低秩表示等。

在一些基于深度学习的方法中，特征提取是通过CNN实现的。然后，通过一些手动设计的融合规则的特征进行融合。最后，作为特征提取的逆过程，特征重构被用于生成融合结果。

此外，本文还提出了一些端到端的融合方法，打破了传统的融合框架，不需要设计融合规则，包括基于GAN的方法。融合过程不需要设计融合规则，而是贯穿于整个过程的端到端实现。不同之处在于，他们手动设置要保留的特征（源图像中的部分信息），并依赖这些特征来训练网络。例如，一些方法试图保留红外图像的强度分布和可见光图像中的梯度

现有的融合规则

到目前为止，融合规则的选择仍然是有限的，并且是手动设计的，包括choose-max ，addition ，average ，Max-l1 和l1-Norm规则。即使融合方法的整体框架相同，不同的融合规则也会对融合性能产生决定性的影响。

现有的融合规则对于融合特征是粗糙的原因如下。由于CNN的不可解释性和不可理解性，特征图中表示的特定特征是不可知的。由于特征图的未知性和可变性，很难度量特征图不同区域的重要性。因此，通过分配像素级权重图来设计融合规则是毫无根据的，该权重图考虑了特征图的像素级重要性。在这种情况下，有限的融合规则的选择和他们的粗糙度限制了融合结果的改善。为了解决这个问题，我们提出了一种新的基于分类显著性的融合规则。考虑到可解释神经网络的可行性，我们依靠二元分类器来评估特征图中每个像素的贡献/显着性，指示是否需要将其融合到结果中。然后，生成分类显著图以融合两种类型的特征图。该方法被称为基于分类显著性的融合方法（CSF）。

4. proposed method

我们首先使用编码器来提取特征图作为源图像的综合描述
在这里插入图片描述
$\lbrace{\phi^1_v,...,\phi^N_v}\rbrace=f_e(V),\lbrace\phi_i^1,...,\phi_i^N\rbrace=f_e(I)$
其中 $f_e$ 表示从encoder中学到的提取函数, $\phi_v和\phi_i$ 分别表示从 $V$ 和 $I$ 中提取的特征图, $N$ 表示特征图的数量

$\lbrace \phi^1_f,...,\phi_f^N\rbrace=\lbrace f_{\phi}(\phi_v^1,\phi_i^1),...,f_{\phi}(\phi_v^N,\phi_i^N) \rbrace$
$\phi_f$ 表示融合后的特征图， $f_{\phi}表示提出的融合规则$ ,最后的融合图像由 $f_e$ 逆变换 $f_d$ 得到