Joint HDR Denoising and Fusion: A Real-World Mobile HDR Image Dataset

Abstract

手机已经成为我们日常生活中无处不在、不可或缺的拍照设备,而小光圈和传感器尺寸使得手机更容易受到噪点和过饱和的影响,导致动态范围(LDR)低、画质低。 因此,为手机开发高动态范围(HDR)成像技术至关重要。 然而,现有的HDR图像数据集大多是在白天由DSLR相机构建的,限制了其在手机HDR成像研究中的适用性。 在这项工作中,我们首次利用手机摄像头开发了一个HDR图像数据集,即Mobile-HDR数据集。 具体来说,我们利用三个手机摄像头在原始图像域中收集成对的LDR-HDR图像,涵盖了不同噪声水平的白天和夜间场景。 然后,我们提出了一个基于变压器的模型和金字塔交叉注意对齐模块,以聚合来自不同曝光帧的高度相关的特征来进行联合HDR去噪和融合。 实验验证了该数据集和方法在移动HDR成像中的优势。 数据集和代码可在https://github.com/shuaizhengliu/joint-hdrdn获得

1. Introduction

随着移动通信技术和数字成像传感器的快速发展,手机已经超越了单反相机,成为我们日常生活中最普遍的摄影设备。然而,由于手机传感器[7]的低动态范围(LDR),在极具挑战性的光照条件下,在暗区和亮区捕获的图像可能会丢失细节。因此,高动态范围(HDR)成像[3]是提高手机摄影质量的关键。

实际上,HDR成像一直是计算摄影领域的一个研究课题,甚至对于DSLR相机也是如此。 构建HDR图像的一种有效且常用的方法是融合一堆具有不同曝光水平的LDR帧。 如果多个LDR帧可以很好地对齐(例如,在静态场景中),则它们可以容易地融合以生成HDR图像[3,23]。 不幸的是,在存在相机抖动和/或物体运动的动态场景中,融合的HDR图像可能会引入由不准确的对准引起的鬼影伪影[45]。 一些去重影的方法已经被提出来拒绝像素难以注册[12,16]。 然而,精确检测运动像素是一个挑战,拒绝太多的像素会牺牲HDR融合的有用信息。

在过去的十年中,深度学习[15]已经证明了它从丰富的数据[4]中学习图像先验的强大能力。不幸的是,HDR成像深度模型的开发相对缓慢,主要原因是缺乏合适的训练数据集。Kalantari等人[10]通过DSLR相机在白天用LDR-HDR图像对建立了第一个数据集。得益于此数据集,许多深度学习算法被提出用于HDR成像。有些作品[10]使用光流[18]对齐多帧后,使用卷积神经网络(CNN)进行融合,但在遮挡和大运动情况下不可靠。随后的工作采用各种网络直接从LDR帧重建HDR图像。Liu等人[19]开发了一个基于可变形卷积的模块来对齐输入帧的特征。Yan et al.[40]提出了一种空间注意机制来抑制不需要的特征,并采用了一种扩展卷积网络[42]进行帧融合。根据这种空间注意机制,一些融合网络的接收域更大,如非局部网络[41]和变压器网络[21]。

虽然[10]开发的数据集在很大程度上促进了HDR成像深度学习的研究,但它并不非常适合手机相机HDR成像技术的研究。首先,由于小光圈和传感器尺寸,手机拍摄的图像比单反相机更容易受到噪声的影响,尤其是在夜间。但是在数据集[10]中,由于是由DSLR相机在白天采集的,所以图像通常是非常干净的。与单反相机相比,手机相机的正常曝光框含有更强的噪声,应该通过与其他帧融合来降低噪声。其次,手机相机的记录位(12位)通常比单反相机(14位)少,导致参考帧内的过曝光区域更大。因此,移动HDR成像是一个更具挑战性的问题,需要新的数据集和新的解决方案。

为了解决现有HDR数据集的上述局限性,并便于对真实世界移动HDR成像的研究,我们利用手机摄像头建立了一个新的HDR数据集,即Mobile-HDR。 具体来说,我们利用三部手机在RAW图像域采集LDR-HDR图像对,覆盖白天和夜间不同噪声水平的场景。 为了获得高质量的HDR图像地面真值,我们首先通过多帧平均采集每次曝光下的无噪声LDR图像,然后通过融合生成的干净LDR帧合成地面真值HDR图像。 对于有物体运动的动态场景,我们遵循[10]首先从静态场景中捕获多个曝光帧合成地面真相HDR图像,然后将非参考帧替换为动态场景中捕获的图像作为输入。 据我们所知,这是第一个具有配对训练数据的移动HDR数据集。

在建立的数据集基础上,提出了一种新的基于变压器的HDR联合去噪和融合模型。 为了增强去噪和实现对齐,我们设计了一个金字塔交叉注意模块来隐式地对齐和融合输入特征。 交叉注意操作能够从不同帧中搜索和聚集高度相关的特征,而金字塔结构便于在严重噪声、大过度曝光和大运动情况下进行特征对齐。 然后应用变压器模块来融合对齐的特征以用于HDR图像恢复。

我们工作的贡献可以概括如下。 首先,利用LDR-HDR图像对构建了第一个移动HDR数据集。 其次,我们提出了一个基于交叉注意的对准模块来进行有效的联合HDR去噪和融合。 第三,我们进行了大量的实验来验证我们的数据集和模型的优点。 我们的工作为研究和评价真实世界的移动HDR成像技术提供了一个新的平台。

2. Related work

HDR Image Datasets.

数据集是算法开发和评估的基石。 在深度学习时代之前,Sen等人[33]和Tursun等人[36]分别提供了8个和16个场景的真实世界HDR数据,没有地面真值HDR图像,用于不同算法的定性评价和比较。 在[10]中Kalantari等人提出了第一对LDR-HDR数据集,包括74个训练对和15个测试对,使得深度HDR模型的学习成为可能。 普拉巴卡尔等人[28]后来建立了一个包含582个LDR-HDR对的数据集。 这两个数据集以中曝光图像为参照系。 为了探讨其他暴露应作为参考的案例,Li等人 [17]收集了一个数据集,其中不同的LDR帧可以作为参考帧,但它不公开。

以上数据都是由DSLR相机采集的,由于相机传感器和镜头的特性不同,不适合研究移动HDR成像方法,尤其是对于强噪声的夜间场景。 为了方便移动HDR成像技术的发展,我们利用移动电话构建了一个涵盖不同场景和噪声水平的HDR数据集。

HDR Image Reconstruction.

在LDR帧可以严格对齐的情况下,用不同的权函数融合它们可以很容易地得到HDR图像[3,23]。 然而,在实践中,鬼影伪影可以通过摄像机的运动和被摄体的移动而产生。 针对动态场景下的HDR去重影问题,人们提出了许多方法。 早期作品可分为两类。 第一类对齐LDR帧并将它们融合到HDR图像。 通过平移或单应的全局刚性对齐[35,38]使用简单,但可能无法处理前景运动。 博戈尼等人[2]和Kang等人[11]利用光流来处理运动物体,这些物体对遮挡、大运动和饱和区域不是鲁棒的。 有些工作[8,33,43,44]执行基于补丁的配准,它对运动更鲁棒,但计算量很大。 另一类方法检测不一致的像素并在全局对齐后丢弃它们,如局部熵[9]、颜色一致性[5,6,31]、中值阈值位图[26]和秩最小化[16,25]。 然而,这类像素的准确检测是困难的,拒绝策略可能会丢失许多对融合有用的信息。

近年来,随着成对LDR-HDR图像数据集[10]的出现,基于深度学习的HDR重建方法得到了发展。 卡兰塔里等人[10]和Prabhakar等人[27,28]使用光流[18]或流网[34]来对齐输入帧,并利用CNN来合并它们。 吴等人[39]使用编码器-解码器网络直接从输入帧合成HDR图像而无需对齐。 刘等人 和普等人[30]采用可变形卷积隐式对齐特征。 严等人[40]设计了一个空间注意模块来检测未对齐区域以抑制重影伪影。 在这个空间注意模块之后,各种具有大感受野的CNNs已经被开发出来[40,41]。 由于变形金刚能比CNN更好地模拟远程依赖性,刘等人[21]提出了一种用于HDR融合的变压器网络,并取得了最先进的结果。 同时,也有一些尝试利用GAN网络[24]和少镜头学习[29]来幻觉HDR细节或缓解对丰富训练数据的依赖。

现有的方法大多是针对DSLR相机采集的图像开发的,可能不适用于手机图像。 最近,Lecouat等人[14]提出用移动RAW突发图像执行联合HDR和超分辨率。 然而,他们利用合成的原始图像进行训练,导致饱和区域出现色晕,无法处理大运动。 在本文中,我们构建了一个真实世界的移动HDR图像数据集,并提出了一个金字塔交叉注意模块来实现对噪声、饱和区域和大运动的对准。

3. The Established Dataset

为了便于移动HDR成像的研究,我们利用手机摄像头在原始图像域建立了成对LDR-HDR图像数据集。 具体来说,我们使用四部配备三种移动传感器(IMX586、IMX766和IMX800)的手机来捕捉不同曝光和光照条件下的图像,包括室内、室外、白天和夜间场景。 我们的数据集中的ISO设置范围从100到6400,涵盖了各种噪声水平。 我们的数据集由三个子集组成:一个包含GT HDR图像的静态场景子集,一个包含GT HDR图像的动态场景子集,以及一个不包含GT HDR图像的动态场景子集(仅用于视觉比较)。

对于静态场景的子集,我们使用固定在三脚架上的手机和定制的应用程序,通过三次曝光(即曝光不足、曝光不足和曝光过度)捕捉LDR序列,该应用程序检测并删除每个镜头中的缺陷像素。在每次曝光下,我们会连续拍摄120到400张图像,以方便去噪。一般来说,镜头数随着ISO的增加和/或曝光的减少而增加。然后我们平均拍摄,以获得每一次曝光的无噪声LDR图像。在获得三张曝光的无噪声LDR帧后,我们利用[3]中提出的加权函数进行合并,生成高质量的HDR图像GT,用H表示。然后从连续捕获的曝光不足、中、过的LDR图像中分别提取三幅LDR帧,分别用Lu、Lm、Lo表示。当LDR输入时,建立LDR-HDR数据对。我们检查每个序列的质量,丢弃离群值。最后收集了136个静态场景,其中白天49个,夜间87个。

 对于具有前景目标运动的动态场景子集,我们使用可控对象来模拟LDR帧之间的运动,遵循[10]中的策略。该过程如图1所示。我们首先保持物体静止,通过三次曝光获取三组静态图像,然后利用静态场景中的方法合成该场景的无噪声HDR GT图像H。同时,我们从静态集提取一个中曝光LDR帧Lm作为LDR输入之一。然后我们移动物体和三脚架来捕捉曝光不足的LDR帧Lu和曝光过的LDR帧Lo。最后,Lu, Lm, Lo和H分别作为LDR输入和HDR GT。我们总共收集了115个动态场景,包括15个白天场景和100个夜间场景。

上述带有HDR GT的静态和动态场景子集可以用来训练HDR重建模型,并对模型进行定量评价。 此外,我们捕捉了30个没有HDR GT的场景,其中包含手持手机捕捉到的不受控制的运动或静态物体,用于不同机型的定性评价。

我们比较了表1中Mobile-HDR数据集和Sig17数据集[10]的统计数据。可以清楚地看到,我们的数据集比Sig17数据集涵盖了更多不同的真实世界场景。与Sig17只包含白天的动态场景不同,我们的数据集涵盖了白天和夜间、动态和静态场景,代表了实际场景中不同的照明条件和不同的噪音水平。此外,我们的数据集的图像分辨率(一般为4K)远高于Sig17 (1500 × 1000)。图2显示了我们数据集中的一些典型场景。在LDR图像中,可以看到黑暗区域和严重过度曝光区域的强烈噪声。

 4. Method

Overview.

不同于DSLR数据上的HDR重建可以直接利用参考系的正常曝光区域进行HDR恢复,移动相机数据的参考系中的正常曝光区域仍然存在较强的噪点,需要通过与其他帧融合来抑制。 此外,移动相机数据中较大的过度曝光区域依赖于来自曝光不足帧的信息来恢复细节。 如果没有一个有效的对齐模块,重影伪影将会在移动HDR图像中变得严重。 因此,我们提出了一种基于变压器的网络,该网络采用了一种新型的金字塔交叉注意对齐模块,能够更有效地对LDR帧中的相关特征进行聚集和对齐,从而实现去噪和HDR重建的联合。

给定三次曝光{L1, L2, L3}的一组有噪声的LDR帧(按曝光时间排序),我们的目标是重建无噪声的HDR帧H。中间曝光帧L2重新分级为参考帧,因此估计的无噪声HDR \hat{H}应该在结构上与L2一致,但包含来自所有帧的动态范围信息。由于我们数据集中的LDR图像是RAW格式的,它们在环境光照下有线性响应曲线。因此,我们不需要使用相机响应函数(CRF)或伽玛校正线性化LDR图像。为了便于对齐,我们将输入的LDR图像{Li}根据曝光时间映射到亮度恒定域,得到相应的{Hi}集合:

 图 3(a)说明了我们提出的模型的总体结构。 它主要由三个部分组成,即金字塔交叉注意力对齐模块,用于邻域帧与参考帧对齐,注意力融合模块,用于对齐特征的融合,以及用于最终HDR重建的合并子网。 对于每个输入张量Xi,i=1,2,3,我们首先通过卷积层提取浅特征Fi。 然后,金字塔交叉关注对齐模块用于将非参考特征Fi,i=1,3对齐到参考特征F2。 本地跳过连接用于更好的训练。 将对齐后的特征\widetilde{F_{1}}\widetilde{F_{2}}\widetilde{F_{3}}馈入注意力融合模块,得到融合后的特征。 最后,一个由上下文感知转换块组成的合并子网将融合后的特征作为输入,生成HDR图像。 一个全局残差连接被用来加速训练过程。

 Pyramid Cross Attention Alignment Module.

我们提出了一个金字塔交叉注意力对齐模块,将特征从邻域帧对齐到参考帧。 由于交叉注意的计算也会聚集相关的特征,因此交叉注意可以同时促进对齐和去噪。

给定大小相同H ×W× C的邻接框架特征Fi、i = 1,3和参考框架特征F2,我们先将其划分为不重叠的M × M本地窗口,得到大小为\frac{HW}{M^{2}}\times M^{2}\times C的两个重塑输入,其中\frac{HW}{M^{2}}为总窗口数。然后分别计算每个窗口的交叉注意。对于来自邻居框F_{i}\in R^{M^{2}\times C},i=1,3和来自参考框F_{2}\in R^{M^{2}\times C}的本地窗口特征,计算查询矩阵Q、key、值矩阵K、V为:

 其中B为可学相对位置编码。在[20]之后,并行执行注意函数h次,并将结果串接得到多头交叉注意。

为了处理复杂运动,我们采用了像视频超分辨率中使用的PCD对齐模块[37]一样的金字塔处理和级联操作。考虑到参考图像中的饱和区域或严重噪声区域通常难以进行可靠的特征匹配,我们提出了一种注意传递机制。直观来说,如果查询patch的大小变大,patch中可能会包含一些有详细信息的区域,这样可以使匹配更加可靠。由于粗尺度上的特征是从更大的接受域提取的,因此我们在粗尺度上进行特征匹配,并将注意系数转移到更细的尺度上。

Attention Fusion Module.

在获得对齐后的特征后,我们采用[40]中提出的注意模块来抑制不对齐、过度曝光和曝光不足区域的有害特征,如图3(b)所示。对于来自非参考LDR图像(即\widetilde{F_{1}}\widetilde{F_3})的每个对齐特征,我们将其与参考特征F2连接,作为两个卷积层的输入,生成一个空间注意地图mi, i = 1,3,范围在0和1之间。然后对mi和\widetilde{F_i}进行逐元素乘法,得到注意特征F_{i}':

 将特征F'1、F2、F'3串联并通过卷积层以获得融合特征。

Merging Network.

合并网络由几个上下文感知的Transformer块(CTB)[21]组成,其中包含一个双分支上下文感知视觉Transformer (CA-ViT)和一个扩展的卷积层,如图3(a)所示。ca - vit的结构如图3(c)所示,采用基于窗口的多头变压器编码器[20]提取全局长程特征,采用带通道注意的卷积块作为另一个并行分支捕获局部信息。

Loss Function.

该模型在[0,1]范围内输出估计的HDR图像\hat{H}。如果将损失直接应用于\hat{H}和ground truth H,训练将被较亮的区域所主导,阻碍了黑暗区域的恢复。因此,我们在HDR域中对HDR图像应用µ律色调映射函数:

 5. Experiments

Training Data Preparation.

由于目前手机采集的成对HDR数据缺乏,本文构建了一个成对的HDR数据集,即Mobile-HDR,用于HDR模型的训练和评估。 我们对原始数据进行黑电平校正和距离归一化,得到每个Li,并以原始输入-原始输出的方式进行联合HDR去噪和融合。 对于静态场景,我们在非参考帧中加入随机全局运动,即[0,20]像素范围内的随机平移。 我们将带有地面真相的移动HDR数据集分为223个训练样本和28个测试样本。 对于训练样本,从动态场景中抽取102个样本,从静态场景中抽取121个样本。 对于测试样本,动态场景中取13个样本,静态场景中取15个样本。 同时,有30个测试样本没有地面真相,以供直观对比。 每个样本由曝光值为{-2,0,2}或{-3,0,3}的三个LDR帧和相应的HDR帧组成。 在训练前,我们将图像裁剪成步幅为200的512×512块。 在训练过程中,我们从512×512块斑块中随机裁剪128×128个区域作为训练样本。

Implement Details.

我们称我们的方法为Joint-HDRDN,因为它可以联合进行HDR去噪和融合。 整个模型由ADAM优化器[13]用缺省参数进行优化。 批量大小设置为16,初始学习速率为2e-4,在500个Epochs后减半。 我们的金字塔交叉注意力对齐模块采用3层金字塔,分区窗口大小M为8。 通道数设置为60,在我们的合并子网中有3个ContextAware Transformer块。 与在每个上下文感知转换器块中使用6个CA-VIT的HDR-Tranformer不同,我们的联合-HDRDN在每个块中只有4个CA-VIT。 受益于我们提出的金字塔交叉注意对齐模块,我们的合并网络不需要堆叠许多变压器块来扩大感受野。 整个训练在四个NVIDIA V100 GPU上进行,大约需要三天的时间来汇聚。

Evaluation Metrics.

我们在RAW域和SRGB域中使用PSNR和SSIM,以及在SRGB域中使用HDR-VDP-2作为评估指标[22]。 SRGB域的HDR结果是通过SIDD[1]中简单的ISP流水线将原始域的HDR结果传递出来的,包括白平衡、去马赛克、颜色校正和SRGB空间转移。 参数来自参考框架的元数据。 对于原始域和sRGB域,PSNR和SSIM在线性域(即PSNR-L和SSIM-μ)和带μ-律的音调映射域(即SSIM-L和SSIM-μ)中评估。 此外,由于HDR-VDP-2是专门为HDR图像的定性评价而开发的,我们在SRGB域进行了计算。

Comparison with State-of-the-Arts.

我们将我们提出的联合HDRDN方法与目前最先进的HDR重建方法,包括DeepHDR[39]、AHDRNet[40]、NHDRRNet[41]和HDR-Transformer[21]进行了比较。 为了公平的比较,我们在训练数据集上重新训练这些深度HDR模型,然后在测试数据集上评估它们。

表2比较了竞争方法的定量结果。 可以观察到,基于Transformer的算法优于基于CNN的方法,而我们提出的联合HDRDN在原始域的PSNR-和PSNR-L方面超过了之前最先进的HDR-Transformer高达0.38 dB和0.95 dB。 此外,在从RAW域到SRGB域的渲染后,我们的模型仍然大大优于其他竞争对手,证明了我们利用金字塔交叉注意力联合进行HDR融合和去噪的策略的有效性。

图 5比较了我们的方法和它的竞争对手在我们的数据集中的一些具有挑战性的场景下的可视化结果。 所有HDR结果首先通过一个简单的ISP传递,然后由Reinhard[32]操作符进行色调映射。 可以看出,我们的方法取得了显著更好的视觉效果。 在高曝光或噪声较大的参考帧上,该方法可以在不引入大量伪影的情况下恢复较好的细节。 相比较而言,其他方法都存在重影伪影或残余噪声。 以往的方法没有考虑噪声对最终HDR图像质量的影响。 同时,他们通常只是通过建模长程依赖性来幻觉过度暴露区域的合理内容,并通过注意力模块来抑制不对齐区域来缓解鬼影伪影。 因此它们不能有效地利用其他帧来恢复细节。 此外,由于缺乏特定的对齐设计,它们不可避免地会产生重影伪影,尤其是对于大的过度曝光区域。 相比之下,我们提出的金字塔交叉注意对齐模块更有效地从其他帧中搜索和聚集有益的特征,能够更好地再现细节和消除伪影。 可在补充文件中找到更多可视化的比较示例。

Ablation Study on Training Dataset.

为了进一步证明构建移动HDR数据集对发展移动HDR技术的必要性,我们分别在DSLR相机捕获的SIG17数据集[10]和移动HDR数据集上训练HDR-Transformer[21]和联合HDRDN模型,并在由手机相机捕获的数据组成的测试数据集上对它们进行评估。 因为SIG17提供了demosaciked数据,所以我们比较sRGB域中的结果。

定量结果如表3所示,验证了DSLR数据集不能很好地支持手机HDR成像的研究。 这主要是因为较小的光圈和传感器尺寸导致手机图像噪点更强,过曝面积更大。 如图所示 6、在DSLR数据集上训练的模型很难去除手机图像中的强噪声,过曝光区域有明显的鬼影伪影。 此外,诸如HDRTransformer的现有方法不是为移动HDR成像而设计的。 即使在我们的移动HDR数据资产上重新训练,它们仍然在过度曝光的区域显示许多重影伪影,在嘈杂的区域显示模糊的细节。 因此,有必要构建一个移动HDR图像数据集,以方便移动HDR成像的研究,如更有效的去噪、对准、融合以及它们之间的联合任务。

Ablation Study on Network.

为了验证我们的联合-HDRDN网络中不同组件的有效性,我们评估了我们模型的以下变体:

-baseline。 我们用HDR-Transformer和AHDRNet所采用的注意力特征提取器取代了金字塔交叉注意力对齐模块,同时保持合并网络不变。 也就是说,基线与HDR-Transformer共享相同的组件,但具有更少的CA-VIT块(12 vs.18)。

-W/O注意力转移。 这个变体移除了在我们的金字塔交叉注意力对齐模块中采用的AT Tensention转移机制。

-W/O注意力融合。 这个变体去掉了注意力融合模块,直接将对齐的特征叠加为融合的特征。

表4列出了我们消融研究的定量结果。 与基线模型相比,该模型在PSNR-μ、PSNR-L方面分别获得了0.51dB和1.11dB的优势,证明了我们提出的金字塔交叉注意对准模块的有效性。 注意转移机制的提出是为了减轻与过度曝光参考区域对齐的困难。 如表所示,如果移除对齐模块中的注意力转移,在PSNR-L下性能将下降0.37dB,验证了注意力转移机制的作用。 注意力融合模块也很有用,因为如果我们移除它,PSNR-会下降0.21 dB。

6. Conclusion

我们首次建立了一个真实世界的移动HDR图像数据集,即MobileHDR,以促进移动HDR成像的研究。 不同于现有的HDR图像数据集大多是在白天用DSLR相机采集的,我们的数据集是在不同的光照条件和场景下由手机摄像头采集的,包含了更强的噪声和更大的过曝光区域。 因此,我们提出了一种新的HDR图像重建网络,即联合HDRDN。该网络采用了一种新型的金字塔交叉注意力对准模块来实现HDR融合和去噪。 大量的实验验证了我们提出的数据集和模型的有效性。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值