Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction Network for Tone Mapping

最新推荐文章于 2024-07-21 07:50:37 发布

spearhead_cai

最新推荐文章于 2024-07-21 07:50:37 发布

阅读量849

点赞数 5

文章标签：深度学习 HDR

本文链接：https://blog.csdn.net/lc013/article/details/137062073

版权

摘要

色调映射（Tone Mapping）旨在将高动态范围 (HDR) 图像转换为低动态范围 (LDR) 表示，这是相机成像管道中的一项关键任务。近年来，基于 3 维查找表（3D LUT）的方法因其能够在增强性能和计算效率之间取得良好的平衡而受到关注。然而，这些方法通常无法在局部区域提供令人满意的结果，因为查找表是色调映射的全局运算符，其基于像素值工作并且无法合并关键的局部信息。为此，本文旨在通过探索一种利用封闭式拉普拉斯金字塔分解和重构来集成全局和局部算子的新策略来解决这个问题。具体来说，我们采用图像自适应 3D LUT 通过利用频率信息的特定特征来操纵低频图像中的色调。此外，我们利用局部拉普拉斯滤波器以自适应方式细化高频分量中的边缘细节。局部拉普拉斯滤波器广泛用于保留照片中的边缘细节，但其传统用法涉及手动调整和相机成像管道或照片编辑工具中的固定实现。我们建议使用轻量级网络从注释数据中逐步学习局部拉普拉斯滤波器的参数值映射。我们的模型以端到端的方式同时实现全局色调操作和局部边缘细节保留。两个基准数据集上的大量实验结果表明，所提出的方法比最先进的方法表现得更好。

1.介绍

现代相机尽管拥有先进而复杂的传感器，但在给定场景中捕获与人眼相同水平的细节的能力有限。为了捕获更多细节，高动态范围 (HDR) 成像技术 [25, 2] 已被开发出来，可以比传统的低动态范围 (LDR) 成像传达更广泛的对比度和亮度值。然而，大多数现代图形显示设备的动态范围有限，不足以再现自然场景中存在的全部光强度。为了解决这个问题，人们提出了色调映射技术[28,34,9]来将高对比度场景辐射度渲染到可显示范围，同时保留对于欣赏原始场景内容很重要的图像细节和颜色外观。

传统的色调映射算子可以根据其处理方式分为全局色调映射算子和局部色调映射算子。全局算子[11,34,7,33,21]根据每个像素的全局特征来映射每个像素，而不考虑其空间定位。这种方法需要计算整个图像的单个匹配亮度值。因此，处理时间大大减少，但生成的图像可能显示更少的细节。相反，局部算子[6,8,10,24,29]考虑图像中每个像素的空间定位并相应地处理它们。本质上，该方法根据每个像素的特定位置计算其亮度自适应。因此，所得到的图像变得更容易被人眼视觉识别并展现出增强的细节，尽管代价是处理时间更长。然而，这些传统算子通常需要经验丰富的工程师进行手动调整，这可能很麻烦，因为评估结果需要跨不同场景进行测试。尽管系统贡献的目的是简化高性能可执行文件的实现[32,15,27]，但它们仍然需要编程专业知识，会产生随着管道复杂性而增加的运行时成本，并且仅在过滤器的源代码可用时才适用。因此，寻求 HDR 图像色调映射的自动策略非常有意义。

近年来，由于深度学习技术的快速发展，基于学习的自动增强方法[37,12,5,30,16,35,19]取得了显着的进步[22]。其中许多方法专注于学习输入高动态范围 (HDR) 和输出低动态范围 (LDR) 图像对之间的密集像素到像素映射。或者，它们预测像素级变换以映射输入 HDR 图像。然而，之前的大多数研究都涉及大量的计算负担，其表现出与输入图像的尺寸相关的线性增长模式。

为了同时提高基于学习的方法的质量和效率，出现了混合方法[17,41,38,36,39]，它将传统算子的图像先验的利用与深度学习中多级特征的集成相结合。基于框架，带来最先进的性能。在这些方法中，Zeng 等人[38]提出了一种基于图像自适应3维查找表（3D LUT）的新颖方法，该方法具有良好的特性，例如卓越的图像质量、高效的计算处理和最小的内存利用率。然而，正如作者指出的，利用全局（空间统一）色调映射算子（例如 3D 查找表）可能会在局部区域产生不太令人满意的结果。此外，该方法需要初始下采样步骤以减少网络计算。对于高分辨率 (4K) 图像，此下采样过程需要高达 16 倍的大幅缩减系数（通常下采样至 256 × 256 分辨率）。因此，这会导致图像细节的显着损失以及随后增强性能的下降。

为了缓解上述问题，这项工作的重点是整合全局和局部运算符以促进全面的色调映射。受可逆拉普拉斯金字塔分解 [3] 和经典局部色调映射算子局部拉普拉斯滤波器 [29, 1] 的启发，我们提出了一种有效的端到端框架，用于执行全局色调操作的 HDR 图像色调映射任务同时保留局部边缘细节。具体来说，我们在拉普拉斯金字塔的底部构建了一个轻量级的变压器权重预测器来预测像素级内容相关的权重图。使用基础 3D LUT 对输入 HDR 图像进行三线性插值，然后与加权图相乘以生成粗略的 LDR 图像。为了保留局部边缘细节并忠实地从拉普拉斯金字塔重建图像，我们提出了一种图像自适应可学习局部拉普拉斯滤波器（LLF）来细化高频分量，同时最大限度地减少在高分辨率分量中计算昂贵的卷积的使用因此，我们逐步构建一个紧凑的网络来学习拉普拉斯金字塔每一层的参数值映射，并将它们应用于局部拉普拉斯滤波器的重映射函数。此外，为了提高计算效率，采用快速局部拉普拉斯滤波器[1]来代替传统的局部拉普拉斯滤波器[29]。两个基准数据集上的大量实验结果表明，所提出的方法比最先进的方法表现得更好。

总结起来，这部作品的亮点可以概括为三点：
(1) 我们引入了一种有效的端到端 HDR 图像色调映射框架。该网络在同一模型中执行全局色调操作和局部边缘细节保留。
(2) 我们提出了一种图像自适应可学习局部拉普拉斯滤波器，用于有效保留局部边缘细节，与图像自适应 3D LUT 集成时表现出显着的效果。
(3) 我们对两个公开可用的基准数据集进行了广泛的实验。定性和定量结果都表明，所提出的方法优于最先进的方法。

在这里插入图片描述

2.提出的方法

2.1 框架概述

我们提出了一个控制色调并且同时可以 HDR 图像色调映射任务中保留局部边缘细节的端到端的框架。我们提出的方法的流程如图 1 所示。给定输入的 16 位 HDR 图像，我们最初将其分解为自适应拉普拉斯金字塔，从而得到由下式表示的高频分量的集合：，以及表示为的低频图像。这里，N表示拉普拉斯金字塔的分解层数。自适应拉普拉斯金字塔采用分解级别的动态调整来匹配输入图像的分辨率。这种自适应过程确保低频图像达到接近约 64 × 64 的分辨率。这里描述的分解过程具有可逆性，允许通过增量操作来重建原始图像。根据 Burt 和 Adelson [3]低频图像中的每个像素通过Octave高斯滤波器对相邻像素进行平均，这反映了输入 HDR 图像的全局特征，包括颜色和光照属性。同时，其他高频分量包含图像的边缘细节纹理。

受上述拉普拉斯金字塔特征的启发，我们建议操纵上的色调，同时逐步细化高频分量 L 以保留局部边缘细节。此外，我们以较低分辨率的组件为条件逐步完善较高分辨率的组件。本文提出的框架由三部分组成。首先，我们引入一个轻量级转换器块来处理并生成内容相关的权重图。这些预测的权重图用于融合 3D LUT 的基础。随后，这种适应的表示用于将转换为，从而产生所需的tone操作。其次，我们通过利用 [, up(), up(edge())] 串联的学习模型来构造参数值映射，其中 up(···) 表示双线性上采样操作和边缘(···)表示canny边缘检测器。然后使用这些参数值图在 N - 1 级拉普拉斯层上执行快速局部拉普拉斯滤波器 [1]。此步骤在考虑局部边缘细节信息的同时有效地细化高频分量。最后，我们提出了一种高效且渐进的上采样策略，以进一步以更高分辨率增强剩余拉普拉斯层的细化。从级别 l = N − 2 开始到 l = 0，我们依次对上一级的精炼组件进行上采样，并将它们与相应的拉普拉斯层连接起来。随后，我们采用轻量级卷积块来执行另一个快速局部拉普拉斯滤波器。这个迭代过程跨越多个级别进行迭代，有效地细化高分辨率组件。我们将在以下部分详细介绍这些模块。

2.2Pixel-level Basis 3D LUTs Fusion
根据拉普拉斯金字塔的固有属性，低频图像包含图像的颜色和光照等属性。因此，我们采用 3D LUT 对低频图像进行色调处理。在 RGB 颜色空间中，3D LUT 定义由元素组成的 3D 晶格，其中是每个颜色通道中的 bin 数量。每个元素定义一个pixel-to-pixel的映射函数，其中 i, j, k = 0, 1, · · · , − 1 ∈ 是元素在 3D 晶格内的坐标, c表示颜色通道。给定输入 RGB 颜色 {(, , )}，其中 i、j、k 由相应的 RGB 值索引，输出由映射函数导出如下：

传统 3D LUT 的映射功能本质上受限于像素值的固定变换。图 2(a) 演示了这种限制，其中输入图像在不同位置具有相同的像素值。然而，这些位置在参考图像中包含不同的像素值。当输入图像通过查找表进行插值时，变换后的图像在这些位置保留相同的变换后的像素值。因此，传统的 3D LUT 框架无法适应复杂的像素映射关系，从而妨碍了其准确表示此类像素变换的功效。

受[36]的启发，我们提出了一种有效的3D LUT融合策略来解决这个固有的限制。[38]提出的传统3D LUT融合策略如图2（b）所示，它首先利用预测的权重将多个 3D LUT 融合为一个图像自适应 LUT，然后执行三线性插值来变换图像。相反，如图2（c）所示，我们的策略是首先对每个LUT执行三线性插值，然后将增强图像与预测的像素级权重图融合。这样，我们的方法可以通过每个像素的权值相对更全面和准确地表示复杂的像素映射关系。像素级映射函数可以描述如下：

其中是最终像素级输出，表示位于 (h, w) 处的 N 个 3D LUT 的像素级权重图。请注意，我们提出的策略涉及使用多个三线性插值，这可能会影响应用于高分辨率图像时的计算速度。然而，由于我们的方法以 64 × 64 的分辨率运行，因此计算开销微不足道。补充材料中提供了更多讨论。

如图 1 所示，给定分辨率降低的，我们将其输入权重预测器以输出内容相关的权重图。由于权重预测器旨在了解全局上下文，例如图像的亮度、颜色和色调，因此 Transformer 主干比 CNN 主干更适合提取全局信息。因此，我们利用[23]提出的微型变压器模型作为权重预测器。当N = 3时，整个模型仅包含400K个参数。

2.3 Image-adaptive Learnable Local Laplacian Filter
尽管基于像素级的 3D LUT 融合策略证明了跨各种场景的输入图像的稳定有效的增强，但仅通过权重图进行像素值的转换仍然无法显着改善局部细节和对比度。为了解决这一限制，一个潜在的解决方案是将局部增强方法与 3D LUT 集成。在这方面，从拉普拉斯金字塔[3]的内在特征中汲取灵感，其中涉及纹理分离、视觉属性分离和可逆重建，3D LUT和局部拉普拉斯滤波器的结合[29]可以提供实质性的好处。

局部拉普拉斯滤波器是边缘感知局部色调映射算子，通过逐个系数构造其拉普拉斯金字塔系数来定义输出图像。每个系数 i 的计算独立于其他系数。这些系数由以下重新映射函数 r(i) 计算：

其中g为高斯金字塔各层的系数，作为参考值，sign(x) = x/|x| 是一个返回实数符号的函数，α是控制细节增加或减少量的一个参数，β是控制动态范围压缩或扩展的另一个参数，定义将细节与边缘分开的强度阈值。

尽管如此，方程3中描述的传统方法需要对每个输入图像进行手动参数调整，导致过程繁琐且劳动密集。为了克服这个限制，我们提出了一种图像自适应可学习局部拉普拉斯滤波器（LLF）来学习重映射函数的参数值映射。学习方案的目标函数可以写成如下：

其中 α 和 β 是拉普拉斯金字塔的学习参数值图，L(···) 表示损失函数，r(l, g) 表示图像自适应可学习局部拉普拉斯滤波器（LLF），l 和 g 是分别是拉普拉斯金字塔和高斯金字塔的系数，R是参考图像。请注意，参数不会影响滤波器的性能，因此，本文固定为0.1。此外，为了提高计算效率，我们采用快速局部拉普拉斯滤波器[1]代替传统的局部拉普拉斯滤波器。
正如第 2.1 节中所讨论的, 我们有 ∈ 和, ∈ 。为了解决潜在的光晕伪影，我们最初使用具有默认参数的 Canny 边缘检测器来提取的边缘图。随后，我们使用双线性运算对和 edge() 进行上采样，以匹配的分辨率并将它们连接起来。连接的分量被馈送到参数预测块 (PPB)，如图 3 所示。PPB 的输出用于重新映射函数 r(i) 以细化：

随后，我们采用渐进上采样策略将细化的高频分量与剩余的高频分量进行匹配。该上采样分量与连接。如图 1 所示，连接向量 [, up()] 被馈送到另一个 LLF 中。细化过程继续迭代，逐步上采样，直到获得。通过应用与等式5中描述的相同的操作，所有高频分量都被有效细化，得到一组细化分量[,，… ,]。最后，使用具有细化组件 [,，… ,]的色调映射图像重建结果图像 .

2.4 Overall Training Objective
所提出的框架通过优化重建损失在监督场景中进行训练。为了鼓励忠实的全局和局部增强，给定一组图像对 (I, R)，其中 I[i] 和 R[i] 表示一对 16 位输入 HDR 和 8 位参考 LDR 图像，我们定义重建损失函数如下：

其中 [i] 是以 I[i] 为输入的网络输出，[i] 是以 [i] 为输入的 3D LUT 的输出， [i] 是参考图像 R 的低频图像。

为了使学习到的 3D LUT 更加稳定和鲁棒，使用了[38]中的一些正则化项，包括平滑项 Ls 和单调性项 Lm。除了这些术语之外，我们还采用 LPIPS 损失 [40] 函数来评估有关感知相关特征（例如，结构内容和详细纹理）的解决方案：

其中ϕ (· 表示从预训练的 AlexNet [20] 中提取的第 l 层的特征图。

总而言之，我们提出的模型的完整目标组合如下：

其中 λs、λm 和 λp 是控制损失函数平衡的超参数。在我们的实验中，这些参数设置为 λs = 0.0001，λm = 10，λp = 0.01。

3.实验
3.1实验设置
数据集：我们在两个具有挑战性的基准数据集上评估我们的网络的性能：MIT-Adobe FiveK [4] 和 HDR+ 连拍摄影 [13]。 MIT-Adobe FiveK 数据集被广泛认为是评估摄影图像调整的基准。该数据集包含 5000 张原始图像，每张图像均由五位专业摄影师修饰。与之前的研究[38,36,39]一致，我们利用ExpertC图像作为参考图像，并采用相同的数据分割，分配4500个图像对用于训练，500个图像对用于测试目的。 HDR+数据集是Google相机小组收集的连拍摄影数据集，用于研究移动相机上的高动态范围（HDR）和低光成像。我们将对齐和合并的帧（DNG 图像）后处理为 16 位 TIF 图像作为输入，并采用手动调整的 JPG 图像作为相应的参考图像。我们在480p分辨率和4K分辨率上都进行了实验。源图像的长宽比大多为4:3或3:4。

评估指标：我们采用四种常用指标来定量评估上述数据集的增强性能。 △E 度量是根据 CIELAB 色彩空间中的 L2 距离定义的。 PSNR和SSIM是通过skimage.metrics库中的相应函数和RGB颜色空间计算的。请注意，较高的 PSNR/SSIM 和较低的 LPIPS/△E 表示更好的性能。

实现细节：为了优化网络，我们采用 Adam 优化器 [18] 进行训练。优化器参数 β1 和 β2 的初始值分别设置为 0.9 和 0.999。初始学习率设置为 2 × 10−4，并且我们在训练期间使用批量大小为 1。为了增加数据，我们执行水平和垂直翻转。训练过程由 200 个 epoch 组成。该实现是在 Pytorch [31] 框架上使用 Nvidia Tesla V100 32GB GPU 进行的。
3.2定量比较结果
在我们的评估中，我们将我们提出的网络与最先进的基于学习的相机成像管道中的色调映射方法进行了比较。比较中包含的方法有 UPE [35]、DeepLPF [26]、HDRNet [12]、CSRNet [14]、3DLUT [38]、空间感知 3DLUT [36] 和 CLUT-Net [39]。为了简化符号，我们在比较中分别使用缩写 LUT、sLUT 和 CLUT 来表示 3DLUT、空间感知 3DLUT 和 CLUT-Net。值得注意的是，我们评估中考虑的输入图像是 CIE XYZ 颜色空间中的 16 位未压缩图像，而参考图像是 sRGB 颜色空间中的 8 位压缩图像。

在考虑的方法中，DeepLPF和CSRNet是基于ResNet和U-Net主干的像素级方法，而HDRNet和UPE属于补丁级方法，LUT、sLUT和CLUT是图像级方法。我们的方法也属于图像级类别。这些方法使用公开可用的源代码和推荐配置进行训练，sLUT 除外，由于该方法的训练代码和权重从未发布过，因此我们根据发布的文章中的描述重现结果。

表 1 展示了两种不同分辨率下 HDR+ 数据集的定量比较结果。值得注意的是，我们的方法在两种分辨率上都比所有竞争方法表现出显着的性能优势，如所有指标中以粗体突出显示的值所示。具体来说，与第二好的方法 sLUT [36] 相比，我们的方法在 480p 分辨率下的 PSNR 显着提高了 0.49dB。当以原始图像分辨率运行时，这一优势变得更加明显（1.25dB），证明了我们的方法对于高分辨率图像的鲁棒性。同样，当在我们的第二个基准测试 MIT-Adobe FiveK 数据集（参见表 2）上进行评估时，我们的方法始终表现出优于所有竞争方法的明显优势。然而，对于所有方法，与 HDR+ 数据集相比，FiveK 数据集提供的改进有限，这可归因于两个主要原因。首先，FiveK 数据集中的一些参考图像存在过度曝光或过饱和的问题，这给增强方法带来了挑战。其次，同一专业摄影师调整的参考图像存在不一致，导致训练集和测试集之间存在差异。更多讨论可以在补充材料中找到。

3.3定性比较结果
为了直观地评估我们提出的网络，我们在两个基准上直观地比较增强图像，如图 4 和图 5 所示。请注意，输入图像是 16 位 TIF 图像，常规显示设备无法直接可视化；因此，我们将 16 位图像压缩为 8 位图像以进行可视化。这些数字表明，我们提出的网络在 MIT-Adobe FiveK 和 HDR+ 数据集上始终如一地提供具有视觉吸引力的结果。例如，在图 4 中，我们的方法擅长保留复杂的细节，例如树枝和草纹理，同时增强亮度。此外，我们的结果表现出卓越的色彩保真度以及与参考图像的对齐。

同样，在图 5 中，虽然其他方法在反射建筑物的阴影区域中饱和度较差，但我们的方法准确地再现了正确的颜色，从而产生了视觉上令人愉悦的结果。这些发现凸显了我们的方法在色调映射任务中的有效性和优越性。更多视觉结果可以在补充材料中找到。由于色调映射任务的中心目标主要是在压缩动态范围的同时重新校准图像的色调，因此各种最先进方法产生的结果之间的视觉差异很小。为了直观地展示视觉差异，我们利用误差图来帮助更精确地识别性能差异。

3.4 消融实验
分解消融。我们进行全面的分解消融来评估我们提出的框架的效果。我们使用 HDR+ 数据集 [13] 中的配对数据从头开始训练我们的框架，并评估其在 HDR+ 测试集上的性能。定量结果显示在表3中。我们从基线方法 3D LUT [38] 开始，不使用像素级权重图或可学习的局部拉普拉斯滤波器。结果显示明显退化，表明 3D LUT 的不足。当引入像素级权重图时，结果平均提高了 1.25 dB。这一证据凸显了第 2.2 节中讨论的基于像素级的 3D LUT 融合策略的成功实施。

接下来，我们将常规的轻量级 CNN 主干替换为[23]提出的微型 Transformer 主干，其中包含少于 400K 的参数。部署 Transformer 主干后，模型改进了 0.93dB，这表明 Transformer 主干更符合全局色调处理，有利于生成更多视觉愉悦的 LDR 图像。

此外，当采用图像自适应可学习局部拉普拉斯滤波器时，结果显示出 1.28 dB 的显着改进。这一发现表明，图像自适应可学习局部拉普拉斯滤波器有助于产生更生动的结果。从图 6 中可以看出，在这种具有挑战性的情况下，将局部拉普拉斯滤波器与 3D LUT 相结合，可以在全局和局部增强方面实现良好的视觉质量。这些结果令人信服地证明了我们提出的框架在色调映射任务中的优越性。

金字塔层的选择。我们在本节中验证拉普拉斯金字塔层数的影响。我们的方法采用自适应拉普拉斯金字塔，允许我们通过改变低频图像的分辨率来操纵层数。如表 3 所示，当分辨率设置为 256 × 256 时，该模型在所有评估指标上均表现最佳。然而，所提出的框架需要更多计算。计算负载和性能之间的权衡由拉普拉斯金字塔中的层数决定。当分辨率降低以减轻计算负担时，所提出的框架仍然保持稳健。例如，将的分辨率从 256 × 256 降低到 64 × 64 仅将所提出框架的 PSNR 从 26.81 略微降低到 26.62。值得注意的是，分辨率的降低导致计算负担显着减少 30%。这些结果验证了音调属性是在相对低维的空间中呈现的.

4.总结
本文提出了一种有效的 HDR 图像色调映射任务端到端框架，结合了全局和局部增强。所提出的框架利用拉普拉斯金字塔分解技术来有效地处理高分辨率 HDR 图像。这种方法显着降低了计算复杂性，同时确保了不折不扣的增强性能。使用 3D LUT 对低频图像执行全局色调处理。提出了一种图像自适应可学习局部拉普拉斯滤波器来逐步细化高频分量，保留局部边缘细节并重建金字塔。对两个公开可用的基准数据集进行的大量实验结果表明，我们的模型在 480p 和 4K 分辨率下的表现优于最先进的方法。

spearhead_cai

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction Network for Tone Mapping

色调映射（Tone Mapping）旨在将高动态范围 (HDR) 图像转换为低动态范围 (LDR) 表示，这是相机成像管道中的一项关键任务。近年来，基于 3 维查找表（3D LUT）的方法因其能够在增强性能和计算效率之间取得良好的平衡而受到关注。然而，这些方法通常无法在局部区域提供令人满意的结果，因为查找表是色调映射的全局运算符，其基于像素值工作并且无法合并关键的局部信息。为此，本文旨在通过探索一种利用封闭式拉普拉斯金字塔分解和重构来集成全局和局部算子的新策略来解决这个问题。
复制链接

扫一扫