A general image fusion framework based on convolutional neuralnetwork（一种基于卷积神经网络的通用图像融合框架）

牛犇学长

已于 2023-09-13 17:19:04 修改

阅读量298

点赞数 1

文章标签： cnn 深度学习计算机视觉人工智能神经网络云计算大数据

于 2023-09-13 17:16:25 首次发布

本文链接：https://blog.csdn.net/qq_44929893/article/details/132858951

版权

摘要：

本文提出了一种基于卷积神经网络的图像融合框架，命名为IFCNN。受变换域图像融合算法的启发，我们首先利用两个卷积层从多个输入图像中提取图像的显著特征。然后，根据输入图像的类型选择合适的融合规则(elementwise-max、elementwise-min或elementwise-mean)对多个输入图像的卷积特征进行融合。最后，通过两个卷积层对融合后的特征进行重构，得到信息融合图像。该模型是全卷积的，可以端到端训练，不需要任何后处理过程。为了对模型进行充分训练，我们在大尺度RGB-D数据集(即ny - d2)的基础上生成了一个大尺度多焦点图像数据集，该数据集拥有ground-truth融合图像，比现有的图像融合数据集包含的图像更加丰富、更大。实验结果表明，在不对其他类型的图像数据集进行微调的情况下，该模型比现有的图像融合模型具有更好的泛化能力，可以融合多聚焦、红外视觉、多模态医疗和多曝光等多种类型的图像。此外，结果也验证了我们的模型在四种类型的图像数据集上取得了与目前最先进的图像融合算法相当甚至更好的结果。

引言：

(1)图像融合的目标是将多幅输入图像的显著特征整合为一幅综合图像。如今，图像融合与我们的日常生活关系越来越密切，在工业领域和军事领域发挥着越来越重要的作用。例如，手机经常与HDR (High Dynamic Range)或重聚焦算法相结合，以使我们能够捕捉到令人满意和信息丰富的图片，而HDR和重聚焦本质上是图像融合算法。在医院，外科医生通过检查多种医学图像(如计算机断层扫描(CT)图像和磁共振(MR)图像)来诊断患者的疾病，特别是通过CT和MR图像的融合来确定骨肿瘤的精确边界。在军事或民用侦察系统中，红外图像与可见光图像的融合可以为观察者充分了解被监视环境带来极大的便利。一般来说，图像融合算法可以分为两类，即空域算法和变换域算法。 (2)空域图像融合算法首先根据一定的准则将输入图像解析成小块或小区域，然后度量相应区域的显著性，最后将最显著的区域组合成融合图像。这类算法主要适用于融合相同模态的图像(如多焦点图像)，在拼接位置周围可能存在块或区域伪影。另一方面，变换域图像融合算法首先通过多尺度几何分解(如多尺度金字塔和多尺度形态算子)将源图像变换成某些特征域，然后对多输入图像的特征进行加权融合。然后对融合后的特征进行反变换得到融合图像。由于在特征域内，即使是形态不同的图像也会具有相似的特性，因此变换域图像融合算法具有普遍性。

共性：通过对比变换域图像融合算法和基于CNN的图像生成模型，我们发现这两种算法有几个相似的特点。首先，变换域算法通常在开始时使用多个滤波器(如高斯滤波器或形态滤波器)提取图像特征，CNN模型也使用大量卷积滤波器提取广泛的特征。其次，变换域融合算法通常采用加权平均策略来融合特征，CNN模型也采用加权平均策略(卷积特征的加权和)来生成目标图像。与变换域图像融合算法相比，CNN模型具有三个优点: (1)卷积滤波器的数量通常比传统变换域算法中的滤波器数量要大得多，因此卷积滤波器可以提取更多信息丰富的图像特征; (2)学习合适的卷积滤波器参数来拟合图像融合任务; (3)通过端到端训练，可以对CNN模型的参数进行联合优化。受变换域算法的启发，我们提出了一种基于卷积神经网络的通用图像融合框架。

框架：

首先，我们使用两个卷积层从多个输入图像中提取信息丰富的低级特征。其次，通过适当的融合策略 (例如元素最大和元素平均) 将提取的每个输入图像的卷积特征进行元素融合。最后，通过两个卷积层重建集成特征以生成融合图像。由于所提出的模型是完全卷积的，因此可以使用任何后处理过程以端到端的方式对其进行训练，与大多数现有的图像融合模型相比，这是一个优越的优势。此外，为了充分训练所提出的模型，我们创建了一个大规模的多焦点图像数据集，通过根据随机深度范围从我们预先构建的NYU-D2数据集中模糊部分图像，这比模糊整个或某些部分的图像块更合理。NYU-D2数据集中的源RGB图像可以作为我们数据集的地面真相融合图像，这比没有地面真相融合图像要好得多。由于上述优点，我们的高分辨率大规模多焦点图像数据集可用于精细训练图像融合模型。

本文贡献点： 1.使用全卷积网络进行端对端训练； 2.根据NYU-D2数据集构建大规模多焦点融合仿真数据集，方法更接近光学镜头的成像原理，因此生成的多焦点图像比完全清晰和完全模糊的图像块更自然更多样化，同时源图像可以作为groundtruth，更有利于监督学习； 3.与变换域方法具有相似的结构，可以更好地泛化至其他各类融合任务； 4.首次在CNN进行图像融合中引入 perceptual loss（感知损失），这是因为 perceptual loss 需要groundtruth，通过该损失可以使融合图像保留更多纹理信息。 perceptual loss（感知损失）图像风格迁移方法中的损失函数，更注重图像的感知质量。

融合方法：

我们提出的IFCNN 方法由三个模块组成: 特征提取模块、特征融合模块和图像重建模块 Image fusion model（图像融合）为了方便地描述所提出的模块，我们假设有N (N ≥ 2) 个输入图像要融合，用I k (1 ≤ k ≤ N) 表示。然后，可以将所提出的图像融合模型的三个模块分别详细描述如下：（1）Feature extraction module（特征提取）首先，我们采用两个卷积层从输入图像中提取广泛的低级特征。采用在ImageNet上预先训练的高级ResNet101的第一卷积层作为我们的第一卷积层 (CONV1)。CONV1包含64个大小为7 × 7的卷积核，这些卷积核足以提取广泛的图像特征，并且CONV1已经在最大的自然图像数据集 (即ImageNet) 上进行了训练。因此，CONV1可用于提取有效的图像特征，从而在训练所提出的模型时固定了CONV1的参数。但是，CONV1提取的特征最初用于分类任务，因此将它们直接输入特征融合模块可能不适合图像融合任务。因此，我们添加了第二卷积层 (CONV2) 来调整CONV1的卷积特征，以适应特征融合。

（2）Feature fusion module（特征提取）通常有两种方法来融合多个输入的卷积特征 1) 首先将多个输入的卷积特征沿信道维度进行级联，然后通过以下的卷积层对级联特征进行融合，2) 通过元素融合规则 (例如元素最大，元素总和和元素均值) 直接融合多个输入的卷积特征。由于串联融合方法要求特征融合模块的参数编号随输入数量而变化，因此，使用该融合方法的模型只能在模型架构固定后融合特定数量的图像。而具有元素融合方法的特征融合模块不包含任何参数，可以融合各种数量的输入图像，并且在图像融合模型中曾经引入过。因此，在我们的特征融合模块中，已利用元素融合规则来融合多个输入的卷积特征，可以将其数学表示为公式。

其中表示CONV2提取的第i个输入图像的第j个特征图，在我们的特征融合模块中，fuse表示元素融合规则 (例如元素最大，元素总和和元素均值)。在转换域图像融合算法中经常使用元素最大融合规则来融合多焦点图像，红外和视觉图像，以及医学图像。但是，元素平均融合规则可能更适合融合多曝光图像。

（3）图像重构因为编码器只用了两层卷积，所以特征并不会非常抽象，图像重构用两层卷积就行了。具体训练时候也是将RGB图像转到YCbCr空间的，Y通道用本文提出的模型进行融合，在将输出的融合Y通道图像再和Cr与Cb通道进行叠加后转回RGB空间，得到最终输出。因为编码器只用了两层卷积，所以特征并不会非常抽象，图像重构用两层卷积就行了。具体训练时候也是将RGB图像转到YCbCr空间的，Y通道用本文提出的模型进行融合，在将输出的融合Y通道图像再和Cr与Cb通道进行叠加后转回RGB空间，得到最终输出。

损失函数：

fp和fg分别表示的特征图谱预测融合图像和真实图像融合。I为特征映射的通道索引。Cf、Hf、Wf分别表示特征映射的通道号、高度和宽度。

Ip和Ig分别表示预测融合图像和真实融合图像。i为RGB图像的通道索引。Hg和Wg表示地真融合图像的高度和宽度。

其中w1和w2分别表示基本损失和感知损失的权重系数。本文将w1和w2均设为1，通过大量的实验结果验证了该方法的有效性。

结论：

该框架主要有四个优点: (1)模型是全卷积的，可以端到端训练，不需要任何后处理过程。 (2)从NUY-D2数据集的RGB和深度图像中绘制出随深度范围随机变化的部分聚焦图像，合理地生成了大规模的多聚焦图像数据集。 (3)模型构造类似于变换域图像融合算法的结构，因此我们的模型通常比现有的图像融合模型具有更好的泛化能力，可以融合各种类型的图像，而无需经过任何微调过程。 (4)由于地真融合图像的存在，首次引入感知损失对图像融合模型进行优化，可以促进模型产生具有更多纹理细节的融合图像。在不调整其他图像数据集上的图像融合模型的情况下，在四种类型的图像数据集上进行了大量的实验结果，验证了所提出的模型比现有模型具有更好的融合各种类型图像的泛化能力，并获得了与最先进的图像融合算法相当甚至更好的融合图像。能可能会受到特定类型图像融合的限制。因此，根据目标图像数据集的具体特征设计架构是提高基于CNN的图像融合模型性能的一种实用方法。

首先，我们的多焦点图像数据集只包含室内图像，因此使用室外图像(如KITTI数据集)扩展数据集可能会提高模型的性能。其次，该模型仅由四个卷积层组成，因此使用更深的卷积神经网络有很大的潜力进一步提高模型的性能。第三，该模型对注册后的图像进行融合，增加图像对齐模块可以使图像融合模型更好地处理未注册的情况。第四，在本文中，我们只使用线性元素融合规则来融合多个输入图像的卷积特征，因此加入更复杂和强大的特征融合模块也可以提高模型的性能。最后，我们提出的模型被设计为一个通用的图像融合框架，因此它的性能可能会受到特定类型图像融合的限制。因此，根据目标图像数据集的具体特征设计架构是提高基于CNN的图像融合模型性能的一种实用方法。

牛犇学长

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
A general image fusion framework based on convolutional neuralnetwork（一种基于卷积神经网络的通用图像融合框架）

(3)模型构造类似于变换域图像融合算法的结构，因此我们的模型通常比现有的图像融合模型具有更好的泛化能力，可以融合各种类型的图像，而无需经过任何微调过程。在不调整其他图像数据集上的图像融合模型的情况下，在四种类型的图像数据集上进行了大量的实验结果，验证了所提出的模型比现有模型具有更好的融合各种类型图像的泛化能力，并获得了与最先进的图像融合算法相当甚至更好的融合图像。第四，在本文中，我们只使用线性元素融合规则来融合多个输入图像的卷积特征，因此加入更复杂和强大的特征融合模块也可以提高模型的性能。
复制链接

扫一扫