IFCNN: A general image fusion framework based on convolutional neuralnetwork

Abstract

        在本文中,作者引入了IFCNN,一个通用图像融合框架,基于卷积神经网络(CNN)。作者首先使用两个卷积层提取多输入图像的显著特征,然后根据图像类型使用逐元素融合规则(如最大、最小或平均)来融合这些特征。最后,通过两个卷积层对融合特征进行重建,生成信息丰富的融合图像。这个全卷积模型可以进行端到端训练,无需后处理。为了训练模型,作者创建了一个大规模的多焦点图像数据集,基于NYU-D2的RGB-D数据集,包含地面真实融合图像。这个数据集更多样,规模更大,超越了现有图像融合数据集。实验证明,作者的模型在多种图像类型上表现出卓越的泛化能力,包括多焦点、红外-可见、多模态医疗和多曝光图像。此外,模型在四个不同类型的数据集上达到了与现有最先进算法相媲美甚至更好的结果。

Introduction

       图像融合是将多个输入图像的显著特征合并成一个综合图像的过程,广泛应用于日常生活、工业和军事领域。手机的HDR和重新对焦功能,医学图像诊断,以及监视系统中的红外和可见光图像融合都是图像融合的实际应用。有两种主要的图像融合算法:空间域和变换域。空间域算法将输入图像分解为区域,然后衡量这些区域的显著性,最后将它们组合成融合图像。这种算法适用于融合相同类型的图像,但可能导致拼接位置的伪影。变换域算法将源图像转换为特征域,然后加权融合这些特征,最后逆向变换以生成融合图像。这种算法通常用于融合不同类型的图像,如红外-可见光图像和CT-MR图像。近年来,机器学习算法已应用于图像融合任务,包括基于稀疏表示的方法,以改进性能和适用于多种图像类型。这些方法使用机器学习来实现更好的图像融合效果。 

      深度学习技术,尤其是卷积神经网络(CNN),已经在图像融合领域取得了进展。以前的方法需要后处理,而CNN可以实现端到端训练。然而,现有的CNN模型在泛化能力方面存在问题,通常只能用于特定类型的图像。这对于缺乏地面真实图像的图像类型来说是一个挑战。CNN模型与变换域图像融合算法有一些相似之处。它们都使用滤波器提取图像特征,并使用加权平均策略来融合这些特征。不过,CNN具有更多的卷积滤波器,可以提取更丰富的特征,而且这些滤波器的参数可以通过训练来适应融合任务。CNN模型的端到端训练方法也有助于共同优化参数。

       作者提出了一种基于卷积神经网络的通用图像融合框架,受到变换域算法的启发,其在训练阶段的体系结构如下图所示:

       该框架首先从多个输入图像中提取信息丰富的低级特征,然后使用适当的融合策略对这些特征进行逐元素融合,最后通过两个卷积层重建融合图像。这个模型是完全卷积的,可以通过端到端训练,无需后处理。为了训练这个模型,作者创建了一个大规模的多焦点图像数据集,其中分辨率更高,包含地面真实融合图像。在训练阶段,作者使用均方误差和感知损失联合优化模型的参数。实验结果表明,这个模型在多种图像类型上表现出色,无需微调,甚至在四种不同类型的数据集上超越了现有的最先进算法。关于训练阶段使用的损失函数,均方误差和感知损失是常见的选择。但我认为在不同类型的图像融合任务中,这些损失函数是否总是最合适的仍然需要进一步讨论。或许在一些情况下,使用其他损失函数或组合不同类型的损失函数可以更好地满足任务的需求。这也是一个需要深入思考的问题。虽然实验结果表明该框架在多种图像类型上表现出色,但需要更多的研究来验证其性能在不同数据集和任务上的一般性。此外,对于一些具体的任务,可能需要对模型进行微调以达到最佳性能。

       本文的两个主要创新点是:首先,作者提出的完全卷积神经网络模型具有卓越的泛化能力,能够在多种不同类型的图像上实现卓越的融合结果,无需进行复杂的微调。其次,作者构建了高分辨率的大规模多焦点图像数据集,其中包含地面真实融合图像,为深度学习模型的训练提供了高质量的数据。这两个创新点使本文的图像融合模型在现有基于CNN的模型中脱颖而出,取得了卓越的性能。

Proposed method

       在计算机视觉领域,卷积层扮演了特征提取和输出图像加权平均的关键角色。这些特性使卷积神经网络在图像融合领域有巨大潜力。受到变换域图像融合算法的启发,作者创建了一个基于卷积神经网络的通用图像融合框架,简称IFCNN。IFCNN由三个主要模块组成:特征提取、特征融合和图像重建。首先,作者运用两个卷积层来提取图像的富有信息的特征。然后,多个输入图像的卷积特征通过特征融合模块进行综合。最后,通过两个卷积层对融合后的特征进行重建,生成最终的融合图像。为了有效训练模型,作者创建了一个大规模多焦点图像数据集,以及一个感知损失,用于规范模型并生成接近地面真实融合图像的输出。以下子节将详细介绍提出的图像融合模型。

1.Image fusion model

模型包括三个模块:特征提取、特征融合和图像重建。

       1. 特征提取模块: 首先,采用两个卷积层从输入图像中提取丰富的低级特征。作者使用经过预训练的ResNet101的第一个卷积层(CONV1)来提取初始特征,因为它在ImageNet上进行了训练,然后通过添加第二个卷积层(CONV2)来进一步调整这些特征以适应图像融合任务。

       2. 特征融合模块: 这个模块的目标是融合多个输入的卷积特征。通常有两种方法来融合多个输入的特征:一种是将它们沿通道维度连接,然后再进行融合;另一种是通过逐元素融合规则(如逐元素最大、逐元素求和和逐元素平均)直接融合特征。作者采用逐元素融合方法,因为它不需要额外的参数,使模型能够融合各种数量的输入图像。这个模型的结构和方法都很合理,但在实际应用中,还需要根据具体任务和数据集的需求进行一些参数调整和模型微调。

       这些模块协同工作,使模型能够从多个输入图像中提取特征并有效地将它们融合在一起。在特征融合模块中,作者采用了逐元素融合规则,包括逐元素最大、逐元素求和和逐元素平均(公式(1))。选择规则通常根据融合任务和数据集来确定。逐元素最大适合突出显著对象,如多焦点图像,红外和可见光图像,以及医学图像。而逐元素平均更适合多曝光图像融合,因为它有助于整合每个输入图像的中间曝光部分。选择规则需考虑任务性质和数据集特点。

fijc2表示CONV2提取的第i个输入图像的第j个特征图,fj表示特征融合模块融合的特征图的第j个通道,fuse表示逐元素融合规则(如逐元素最大、逐元素求和和逐元素平均)

        模型采用卷积神经网络来融合多个输入图像,特征提取时使用预训练的ResNet101的CONV1层,随后使用CONV2和CONV3来调整特征。这个选择合理,因为ResNet101是一个经过大规模训练的深度神经网络,其底层特征在图像识别任务中具有强大的表征能力。在特征融合模块中,采用逐元素融合规则,如逐元素最大、逐元素求和和逐元素平均。这种方式的好处是不需要额外的参数,因此更加轻量级和灵活。不过,逐元素融合规则的选择可能取决于任务和数据集。在不同情况下,某些规则可能更适合,因此在实际应用中可能需要多次尝试以找到最佳的融合策略。模型中没有降采样层,以保持特征图的大小与输入图像一致。这有助于保留更多的空间信息,但也可能导致计算和内存开销较大。在某些情况下,可能需要对特征图进行下采样以降低计算复杂性,尤其是在处理大尺寸图像时。最后的CONV4层用于将特征图重建为3通道输出。对于RGB多曝光图像,还执行一些额外步骤,如将图像转换为YCbCr颜色空间,分别处理通道,然后再合并以生成融合图像。这表明模型在考虑了不同类型的输入图像后进行了适当的调整,以处理多样性的数据,这种灵活性是一个优点,但也需要更多的计算资源。

2 Training dataset

       在训练模型时,在线多焦点图像数据集是从NYU-D2数据集的RGB和深度图像对生成的,生成过程如下:

       (1) 通过使用高斯滤波器将源RGB图像Is随机模糊生成完整的模糊图像Ib,可以表示为:

       这里的∗表示卷积操作,G表示高斯核,根据公式(4),高斯核的半径kr在1像素到15像素之间随机生成。  其中,σ代表高斯滤波器的标准偏差,可以计算为σ = 0.3 × (kr − 1) + 0.8。

       (2) 在多焦点图像生成中,首先使用随机深度范围分割场景,形成清晰(深度小于或等于dth的部分)和模糊(深度大于dth的部分)部分。

      (3) 利用RGB图像Is、模糊图像Ib和焦点图Im生成一对多焦点图像(近焦点图像I1和远焦点图像I2),这些图像共同构成一组多焦点图像,而Is是它们的真实融合图像Ig。其中,1表示与Is相同大小的全一矩阵,⊙表示逐元素相乘。

       (4)在训练阶段,为了增强数据,随机生成的多焦点图像和原始RGB图像经过随机的尺寸调整、裁剪、大小调整(到224x224像素)以及垂直和水平方向的随机翻转处理。这些处理后的多焦点图像被用作模型的输入,而相应的标准融合图像用作标准参考。

3  Loss function

       模型训练前需选择适当损失函数。常见的均方误差(MSE)虽常用,但可能导致平滑融合图像。为解决此问题,引入感知损失函数,衡量高级卷积特征的均方误差,以提高生成图像与标准图像的结构相似性。 ResNet101网络的最后一个卷积层特征用于构建感知损失,确保更准确的相似性评估。具体而言,所提出的感知损失被公式化为由ResNet101的最后一个卷积层提取的预测融合图像的特征图和标准融合图像的特征图的均方误差,如公式(6)所示。

       其中,fp和fg分别表示预测的融合图像和标准融合图像的特征图。i表示特征图的通道索引。Cf,Hf和Wf分别表示特征图的通道数、高度和宽度。

       其中,Ip和Ig分别表示预测的融合图像和标准融合图像。i表示RGB图像的通道索引。Hg和Wg表示标准融合图像的高度和宽度。在训练模型时,作者首先选择预测的融合图像和标准图像的均方误差(MSE)作为基本损失(计算如公式(7)所示)来预训练提出的模型。然后,作者将提出的感知损失添加到基本损失中,以精细调整模型,其计算方式如公式(8)所示。

       模型训练中,将基本损失和感知损失组合,其中权重系数w1和w2均设置为1,通过误差反向传播方法更新可微分的模型参数,采用随机梯度下降(SGD)。

4 Training details

       模型训练分为两阶段:预培训和精细训练。预培训使用多焦点图像数据集,小批量大小为64,迭代5000次,逐渐降低批量归一化(BN)层的动量。随后,冻结BN层参数,采用综合损失(Tloss)进行精细训练,共迭代60,000次,减小批量大小。学习率采用“poly”策略逐渐减小。在精细训练过程中,数据集进行了颜色和HSV通道的随机调整,以提高模型的稳健性。模型参数的调整通过设置maxI和power值来控制学习率的减小率。实验中,power固定为0.9。

Experimental

1 Multi-focus image fusion

2 Infrared and visual image fusion

       图12(a)和(b)是第10对红外和可见图像,捕捉到了一个夜晚的街道场景,其中有几个人和两辆汽车。理想情况下,融合应该将红外图像中的明亮特征,如人物、汽车和交通灯,直接注入到可见图像中,以保留大部分可见外观特征并整合红外图像的明亮特征。图12(c)和(d)中的算法在其融合图像中整合了太多无用的亮背景特征,使其融合图像的局部对比度低于其他算法(除MECNN外)。MFCNN未能保留可见图像中的许多重要外观特征,并由于其不合适的焦点图而未能整合红外图像的某些重要亮点。图12(f)显示,MECNN虽然整合了红外和可见图像的显著特征,但对比度较低。本文中的四个模型(IFCNN-SUM和IFCNN-MEAN)的融合图像对比度较低。最后,图12(i)和(j)显示,BASELINE-MAX和IFCNN-MAX从红外图像中注入了有用的亮特征,同时保留了可见外观特征,因此它们的融合图像更适合视觉感知。IFCNN-MAX的融合图像整合了更多有用的红外特征,因此在红外和可见图像融合方面表现更佳。

3 Medical image fusion

       图14(c)–(j)中展示了一对CT和MR切片的融合结果。理想情况下,融合应该整合CT图像的颅骨特征和MR图像的组织特征。GFF、LPSR和MFCNN未能充分整合CT图像的颅骨特征,而MECNN的融合图像存在模糊效应。相比之下,本文中的四个模型成功整合了CT和MR图像的特征,其中IFCNN-MAX的融合图像效果最佳。另外,定量表示中,MFCNN在VIFF、ISSIM和NMI方面表现较好,因为多模态医学图像之间的相关性较低。除此之外,IFCNN-MAX在大多数指标上表现出色,表明感知损失提升了图像融合模型性能。综上所述,IFCNN-MAX在融合多模态医学图像方面表现出色,能够整合更多有用特征。

4 Multi-exposure image fusion

5 Time cost comparison

Conclusion

       作者提出的主要模型能够获得与最先进的图像融合算法相媲美甚至更好的性能。IFCNN-MAX在三种类型的图像数据集(多焦点、红外-可见和多模态医学图像数据集)上表现优于IFCNN-SUM和IFCNN-MEAN,因此IFCNN-MAX展现出更好的泛化能力。总的来说,实验结果通过比较四种图像数据集上的评估结果验证了本文提出的主要模型(IFCNN-MAX和IFCNN-MEAN)相对于现有模型具有更好的泛化能力。由于多曝光图像的广泛曝光度范围,IFCNN-MEAN更适合融合多曝光图像。几乎所有的结果表明本文提出的主要模型(IFCNN-MAX和IFCNN-MEAN)优于基线模型(BASELINE-MAX和BASELINE-MEAN),这意味着感知损失可以提高图像融合模型,产生更具信息量的融合图像。

Thinking

       关于训练阶段使用的损失函数,均方误差和感知损失是常见的选择。但在不同类型的图像融合任务中,这些损失函数是否总是最合适的仍然需要进一步讨论。或许在一些情况下,使用其他损失函数或组合不同类型的损失函数可以更好地满足任务的需求。特征提取采用了ResNet101的CONV1层,然后通过CONV2和CONV3来进一步调整特征。这个选择合理,因为ResNet101是一个经过大规模训练的深度神经网络,其底层特征在图像识别任务中具有强大的表征能力。然而,是否有更适合特定任务的特征提取网络,需要根据具体情况进行研究。模型没有降采样层,以保持特征图的大小与输入图像一致。这有助于保留更多的空间信息,但也可能导致计算和内存开销较大。在某些情况下,可能需要对特征图进行下采样以降低计算复杂性,尤其是在处理大尺寸图像时。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值