HoLoCo: Holistic and local contrastive learning network for multi-exposure image fusion论文小结

解决的问题:

多曝光图像融合(MEF)的目标是整合不同曝光的多个镜头,并生成比每个镜头更高的动态图像。现有的基于深度学习的 MEF 方法仅采用参考高动态图像(HDR)作为正样本来指导融合网络的训练。然而,仅仅依靠这些正样本很难为整个网络找到最佳参数。因此,生成的 HDR 结果会模糊或遗漏结构或纹理信息。此外,很少有方法尝试在融合过程中防止光照退化,导致融合结果的色彩饱和度较差。

传统方法的不足:

传统方法在空间域(如像素、斑块和优化)或变换域(如多尺度变换、梯度和备用表示)进行融合,生成 HDR 图像。至于空间域方法,基于像素的方法往往容易在所提供的 HDR 图像中出现各种伪影。相比之下,基于斑块的方法在纹理细节的保存上存在很大问题。此外,变换域方法通常需要一组较长的源图像,且曝光间隔较小,因此计算负担较重。

提出的方法:

整体和局部对比学习网络,以探索源 LDR 图像和参考 HDR 图像之间的潜在关系,从而轻松找到网络的最佳参数。这确保了基于像素(在恢复细节方面有优势,但在平衡整体对比度方面受到限制)和基于斑块(可以描述像素的整体强度,但在曝光过度或不足的区域色彩饱和度较差)的信息都能得到更好的保留。此外,我们还开发了一个 Retinex 理论色彩校正模块,以确保更好的光照一致性。

优势:

           1)将对比学习引入多曝光图像融合。对源图像和参考图像之间的对比关系进行了建模,从而在不增加任何模型参数的情况下实现了更好的融合性能。

           2)在损失函数中引入了整体和局部对比约束。通过从图像和补丁两个角度构建一致的正样本和负样本,融合网络可以在特征学习中充分使用综合信息,从而确保融合结果具有可靠的的纹理细节和均匀的曝光度。

           3)提出了受 Retinex 理论启发的色彩校正模块。通过设计双流网络架构,该模块能够以从粗到细的方式学习深度特征来校正色彩,在抑制重要信息丢失的同时显著恢复鲜艳的色彩。

网络框架:

1.注意力融合模块(AFM)

输入的过曝图像记为 O,欠曝图像记为 U。对应的两个注意力网络分别记为 Ao 和Au ,该模块的过程可抽象为以下内容:

Ii 表示初始融合结果,⊙ 和 ⊕ 分别表示元素乘法和加法。

首先通过多层卷积将输入源图像转换为特征表示,然后通过最大值和平均池化进行降采样,以获得不同尺度的感知效果。处理完低尺度特征图后,我们在上采样过程中通过跳过连接来补偿特征错位,然后通过卷积处理获得注意力图。最后,通过将注意力图生成的两幅图像点乘相应的图像,再进行逐元素相加得到初始融合图像。

2.色彩校正模块(CCM)

双流色彩校正模块(CCM)来解决这些问题。它包括基于 U-shape网络的两个流:受 Retinex 理论启发的细节补充流 SD 和色彩校正流 SC。整个网络的流程如下:⊘ 表示元素顺除,F 表示生成的融合图像。

SC 能生成接近地面实况色彩信息的照度图,并通过逐元素除法修正亮度分量的色彩偏差。然而,这一过程可能会影响反射分量,并干扰图像的纹理细节。因此,需要引入 SD 来弥补细节的损失,甚至提供更多细节。

3.细化模块

对对抗/感知学习和整体/局部对比度约束进行了创新。基于生成式对抗网络(GAN),对抗学习由卷积和批量归一化操作组成的判别器实现。感知学习和对比度约束是基于预先训练好的 VGG-16  网络。

4.损失函数

MSE 用于主像素级约束,表示为

G 代表参考地面实况,F代表生成的融合图像。

由于传统的 MSE 损失不足以表达人类视觉系统对图片的直观感受,我们引入了模仿人类视觉感受的 MEF 结构相似性 损失:

为了平衡像素强度分布并抑制不良伪像,我们引入了对抗学习来约束生成的融合图像与地面实况的一致性。我们采用 LSGAN 损失法对判别器和生成器进行如下约束:

整体对抗损失的定义是两部分之和:

为了增加从整体特征风格角度的考虑,我们还在细化模块中引入了感知损失,它有助于衡量特征域的差异。它计算的是从预训练的 VGG-16 网络 φ 中得到的多层特征距离,感知损失 可以表示为:

φl 表示 VGG-16 中的第 l 层,C、H 和 W 分别表示相应层的通道数、高度和宽度。

整体对比约束旨在综合指导融合图像的修复。我们希望融合后的图像更接近地面真实图像的特征分布,而远离过曝/低曝图像的特征分布。其定义如下

O 和 U 分别代表曝光过度/曝光不足的图像。

平衡小区域的过曝/欠曝,以克服可能出现的色彩偏差。随机剪切 P 个图像片段,即 {f、g、o、u},以从局部弥补这一问题。局部对比度约束 的定义如下:

整个整体/局部对比制约因素的定义如下:

总损失函数为:

实施细节:

数据集的选用:

从 SICE 数据集中,我们手动排除了非极端曝光的图像,并收集了 490 个图像序列,每个序列包含一个曝光过度图像、一个曝光不足图像和一个高质量参考图像。在训练过程中随机选取 360 个图像序列,其他 130 个序列用于验证。

评估指标:

基于图像特征的指标 AG(Average gradient)、基于信息论的指标 PSNR(Peak Signal to Noise Ratio) 和 CC(Correlation Coefficient)、基于图像结构相似性的指标 SSIM(Structure Similarity) 和 MSSSIM(Multi-scale Structure Similarity),以及受人类感知启发的融合指标 VIF(Visual information fidelity),MEF 领域特别使用和常用的指标TMQI(Tone Mapping Image Quality Index) 和 MEF-SSIM(MEF-Structure Similarity)。

AG 的测量方法如下:

∇Fx(i, j) = F(i, j) - F(i + 1, j),∇Fy(i, j) = F(i, j) - F(i, j + 1)。AG 值越大,表明融合图像的梯度信息越丰富,融合效果越好。

VIF 有四个步骤。首先,将源图像和融合图像划分为子带,并将子带划分为块。第二,计算每个块的视觉信息。第三,计算每个子带的 VIF。最后,计算每个子带的 VIF 加权和。VIF 值越大,融合性能越好。

PSNR 的定义:

r 表示 F 的像素峰值。PSNR 越大,说明融合结果越接近地面实况。

SSIM 分为三部分进行估计,包括亮度 l、对比度 c 和结构 s,分别拟合如下:

f 和 g 分别表示滑动窗口中的融合图像和地面实况的补丁,μ 表示平均值,σ 表示方差。σfg 表示 f 和 g 的协方差。

W 表示滑动窗口截取的图像片段数。

MSSSIM 是将不同分辨率的图像进行组合的一种方法,其计算方法除 S 的SSIM公式一致:

原始图像的源大小经过 R 次向下采样迭代。

MEF-SSIM 弱化了亮度信息,并将其转换为精细设计的强度信息,重新定义了l,c,s三个分量。三个新分量的使用方法仍基于SSIM公式的格式。

CC 通常用于从统计学角度测量两幅图像的相似度,其定义为

 代表 F 和 G 的平均值。CC 越大,表示融合后的图像与地面实况越相似。

TMQI 以标量的方式测量色调映射图像质量的不同方面,包括结构保真度 SF 和统计自然度 Sn,其定义如下:

a 调整 SF 和 Sn 的相对重要性。b 和 c 控制各自的敏感度。

SICE 数据集的实验比较:

提出的方法与十一种最先进的方法进行了比较,其中包括三种传统方法,即 MGFF 、DSIFT  和 MEF-CNN ,以及九种深度学习方法,即 DeepFuse 、PMGI 、U2Fusion 、MEF-GAN 、HALDeR 、CF-NET 、DPE-MEF  和 MEF-CL 。具体来说,MGFF 提出了一种基于引导图像滤波器的简单而快速的融合算法。DSIFT 同时考虑所有多重曝光图像,以反映图像之间的相对强度和全局梯度。MEF-CNN 首次在传统方法中引入了卷积操作。DeepFuse 是一种基于深度学习的多曝光图像融合方法。PMGI 设计了一个灵活的损失函数,用于高效融合不同曝光的图像。U2Fusion 约束了融合结果与输入图像之间的相似性。MEF-GAN 是一种基于生成对抗网络(GAN)的新型 MEF 方法。在 HALDeR 中,分层关注和细化模块的设计是为了很好地融合不同的曝光图像。CF-NET 制作了一个耦合反馈网络,可同时实现 MEF 和超分辨率任务。DPE-MEF 使用了细节和色彩增强模块,形成了一个灵活高效的网络。MEF-CL 是一种带有对比学习的无监督融合算法。

定性比较:

定量比较:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值