FusionDN: A Unified Densely Connected Network for Image Fusion一种用于图像融合的统一密集连接网络

       DenseNet模型的基本思路与ResNet一致,但它建立的是前面所有层与后面层的密集连接(即相加变连结),它的名称也是由此而来。DenseNet的另一大特色是通过特征在通道上的连接来实现特征重用。这些特点让DenseNet的参数量和计算成本都变得更少。ResNet解决了深层网络梯度消失问题,它是从深度方向研究的。宽度方向是GoogleNet的Inception。 而DenseNet是从feature入手,通过对feature的极致利用能达到更好的效果和减少参数。    

1.Dense Block——特征重用        DenseBlock包含很多层,每个层的特征图大小相同(才可以在通道上进行连结),层与层之间采用密集连接方式。

        图是一个包含5层layer的Dense Block。可以看出Dense Block互相连接所有的层,具体来说就是每一层的输入都来自于它前面所有层的特征图,每一层的输出均会直接连接到它后面所有层的输入。所以对于一个L层的DenseBlock,共包含 L*(L+1)/2 个连接(等差数列求和公式),如果是ResNet的话则为(L-1)*2+1。从这里可以看出:相比ResNet,Dense Block采用密集连接。而且Dense Block是直接concat来自不同层的特征图,这可以实现特征重用(即对不同“级别”的特征——不同表征进行总体性地再探索),提升效率,这一特点是DenseNet与ResNet最主要的区别。

摘要

       在本文中,我们提出了一种新的无监督和统一的密集连接网络,用于不同类型的图像融合任务,称为FusionDN。在我们的方法中,密集连接网络被训练以生成以源图像为条件的融合图像。同时,应用权重块获得两个数据驱动的权重,作为不同源图像中特征的保留度,这两个权重是对其中信息量和质量的测量。基于这些权重的相似性损失被应用于无监督学习。此外,我们通过应用弹性权重合并来获得适用于多个融合任务的单个模型,以避免在顺序训练多个任务时忘记从以前的任务中学到的东西,而不是为每个融合任务训练单独的模型或粗略地联合训练任务。定性和定量结果表明,FusionDN与最先进的方法相比,在不同的条件下具有优势。

引言

       根据成像原理,图像融合任务大致可分为多模态成像图像融合和数字摄影图像融合两大类。人们分别提出了许多传统的方法来解决这类融合问题。这些方法可分为空间域方法和变换域方法。在空域方法中,融合是基于小块或区域完成的。变换域方法将源图像变换到其他域,并在这些变换域内完成融合过程,包括多尺度变换(如金字塔变换、小波变换、shearlet变换、离散余弦变换)、稀疏表示、混合、子空间等方法。 例如,作为多模态图像的表示,红外图像以高对比度的像素强度表示热辐射信息,而可见光图像主要捕获具有丰富梯度变化的反射光信息。在数码摄影获得的图像中,需要提取的特征是具有更清晰表征的物体。然而,提取过程很难按照统一的规则执行。一些基于深度学习的方法通过在一个融合任务的数据集上训练模型,并将训练好的模型应用于其他任务来解决这个问题。但由于缺乏对其他数据集的训练,融合结果并不令人满意。此外,利用深度学习进行图像融合的主要障碍是缺乏用于监督学习的真实融合图像。有些方法通过人工制作真实图像来解决这个问题。然而,对于图像融合问题,有时并没有统一的标准来衡量人工合成的地真图像是否合适。对于不同的融合任务,不仅费时费力,而且难以实现通用性。

贡献

       为了克服这些挑战,在本文中,我们提出了一个统一的密集连接网络,用于图像融合,克服灾难性遗忘,称为FusionDN。给定两幅源图像,利用密集连接的网络生成融合图像。同时,利用权重块获得两个数据驱动的权重作为不同源图像中特征的保留度。因此,对于所有的融合任务,不需要地基真值融合图像。此外,我们不是针对不同的融合任务单独训练不同的模型,而是通过应用弹性权巩固(EWC)来获得一个适用于多个融合任务的单一模型,以避免在顺序训练多个任务时忘记从以前的任务中学到的东西。定性和定量结果都显示了与最先进的方法相比,FusionDN的优势。     贡献:我们的工作贡献包括以下几个方面:     (1)考虑到缺乏真实图像是图像融合的绊脚石,我们提出了一种新的无监督图像融合网络。由于损失函数是数据驱动的,因此该网络可以应用于不同的融合任务,即是一个统一的图像融合网络。     (2)我们实现一个单一的模型来完成不同的融合任务。该方法克服了现有方法中只对单个融合任务训练模型的缺点,克服了存储和计算问题以及灾难性遗忘问题。因此,它不仅是一个统一的框架,而且是多个融合任务的统一模型。

实验方法

  (1) Problem Formulation        ‘

        首先需要注意的是,不同融合任务的源图像之间存在差异。有些是单通道,有些是三通道(通常是RGB)图像。如果源图像是三通道数据,我们将它们从RGB转换为YCbCr色彩空间。于融合Y通道(亮度通道)值,因为结构细节和亮度变化都在该通道中。用传统的方法将Cb和Cr通道(色度通道)的值进行融合。然后,将这些通道的融合分量传输到RGB色彩空间中,得到最终的融合图像。这样,所有的融合问题都统一到单通道图像融合中。 用于融合Y通道(亮度通道)值,因为结构细节和亮度变化都在该通道中。用传统的方法将Cb和Cr通道(色度通道)的值进行融合。然后,将这些通道的融合分量传输到RGB色彩空间中,得到最终的融合图像。这样,所有的融合问题都统一到单通道图像融合中。

       给定两幅单通道源图像I1和I2,由于不同类型图像中的重要信息差异很大,作为一个统一的框架,很难预先确定要提取和融合的特征。针对这种情况,我们不再设计特征提取和重建方法,而是从一个新的角度根据不同源图像的特性来确定融合图像中不同源图像特征的保留程度。由于这种保留程度随特定源图像而变化,因此我们的方法是一种数据驱动的方法,通过应用两个数据驱动的权重,即ω1和ω2。它们是由图像的特定属性决定的,而不是人为预先设定的。如图1所示,权重块用于生成不同源图像的权重,然后将其输入DenseNet的损失函数。训练DenseNet根据权重和子损失函数提取和重构源图像的特征。

       在评估每个源图像的权重时,主要考虑的是保留权重较高的图像中质量较高的信息。例如,它体现在可见光图像中相对于相应红外图像噪声更小的区域,多焦图像中景深范围内外观更清晰的物体,多曝光图像中亮度更合适、畸变更小的物体等,因此,为了评估每个源图像中包含的信息的质量,用于图像质量评估的深度神经网络(IQA)来实现评估。例如,它评估源图像质量是否由于高斯模糊、噪声、压缩和不同强度的局部块方向扭曲等问题而下降。此外,由于原始高质量图像难以获得或根本不存在,我们采用无参考(NR)模型代替全参考模型。然后,我们可以得到I1和I2的两个图像质量分数分别为IQA1和IQA2。  

       然而,有一个问题是,IQA仅仅是对图像质量的评价,而不考虑图像的其他方面。显示了一个典型的例子。可见贴片比红外贴片具有更高的图像质量,但红外贴片具有更完整的场景表示。直观上,我们更倾向于在融合图像中更多地保留红外片中的信息。这是另一个融合准则的反映。理论上,融合图像中保留的源图像信息越多越好。而信息量则不在图像质量的测量范围之内。为了解决这个问题,除了NR-IQA,我们在信息论的基础上应用客观度量熵来度量每个源图像中的信息量。     数学上定义为:    

其中L为灰度级数,一般设置为256。Pl为对应能级的概率。一方面,EN的值越大,意味着包含的信息越多。另一方面,EN容易受到噪声的影响。单纯依靠EN来分配权重可能会导致融合结果产生大量的噪声和失真。此外,IQA可以评估噪声和其他降低图像质量的问题。因此,IQA和EN这两个指标可以互补,弥补彼此的不足。因此,我们需要同时考虑信息的质量和数量,以得到一个更全面的评价标准。将函数F应用于一些后续操作,以确定最终权重ω1和ω2,权重块中的具体过程如图3所示。

  通过一个权值λ来控制源图像中信息的质量和数量之间的权衡,我们可以得到它们各自的分数,即s1和s2:          

     最终的权重是根据分数分配的。由于分数之间的差异与值本身相比要小得多,因此直接归一化得到的权重不能反映它们之间的差异。因此,为了增强和体现权重的差异,s1和s2被指数拉伸。以正数c为尺度值并进行后续归一化处理,源图像的最终权值可定义为:          

DenseNet的损失函数中使用ω1和ω2来控制不同源图像中特征的保留程度。保留度越高,融合图像与源图像的相似度越高。在约束不同图像之间的相似性方面,结构相似性指数度量(structural similarity index measure, SSIM)是应用最广泛的度量,它根据光线、对比度和结构信息的相似性对图像的损失和失真进行建模(Wang et al . 2004)。数学上,图像x和y之间的SSIM可以定义为:

网络结构      我们的网络DenseNet中有五个常见的卷积层和四个块来生成If。网络的输入是I1和I2的连接。至于前六层,由于已经证明cnn可以明显更深,并且如果它们在靠近输入的层和靠近输出的层之间包含更短的连接,则可以有效地训练,因此我们在DenseNet中使用了来自密集连接卷积网络的密集连接层。如图所示,在每层和所有层之间以前馈方式建立短的直接连接,这能够解决梯度消失的问题,加强特征传播,同时大大减少网络中的参数数量。然后,将这些层提取的特征馈送到随后的四个公共层中,逐步减少特征映射的通道,生成最终的融合图像

DenseNet网络结构

         此外,在密集连接层中,我们使用由两个卷积层组成的块来代替公共卷积层。通过引入额外的卷积层,可以训练块来学习更高级的特征,这些特征用于短直接连接。通过这种方式,当我们深化DenseNet时,与为所有卷积层构建短连接相比,参数的数量可以减少。        各层具体设置如表1所示。 为了避免信息丢失,在卷积前进行了反射填充。所有的内核大小都设置为3 × 3,所有的步长都设置为1,没有池化层。为了通过减少内部协变量移位来加速深度网络训练,采用了批量归一化方法

结论

      本文提出了一种新的无监督深度学习融合方法FusionDN,利用统一的密集连接网络生成融合图像。利用权重块获得两个数据驱动的权重作为不同源图像中特征的保留度。        这些权重是基于测量源图像中信息的质量和数量而获得的。此外,我们还获得了一个适用于多个融合任务的单一模型,该模型克服了灾难性遗忘,避免了存储联合训练的年龄和计算问题。与最先进的方法相比,这种单一模型可以在红外和可见光、多曝光和多焦点图像融合方面产生高质量的融合结果。同时,基于FLIR视频,我们发布了一个新的红外和可见光对齐图像数据集,即RoadScene,为图像融合基准评估提供了新的选择。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值