Adversarial and Adaptive Tone Mapping Operatorfor High Dynamic Range Images

Adagrad

于 2024-10-10 16:41:06 发布

阅读量356

点赞数 5

分类专栏： paper 文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/u013049912/article/details/142821377

版权

paper 专栏收录该内容

73 篇文章 10 订阅

订阅专栏

Abstract

这项工作涉及色调映射，这是一种将高动态范围 (HDR) 图像转换为低动态范围 (LDR) 图像的常用方法。我们通过使用自适应色调映射来解决这个问题。我们建议部署条件生成对抗网络来构建对抗性和自适应色调映射算子（adTMO），将 HDR 转换为 LDR 图像。我们使用称为色调映射图像质量指数 (TMQI) 的客观质量指标来评估我们的 adTMO。经过256 * 256图像的训练，adTMO能够生成256 * 256和高分辨率1024 * 2048 LDR图像。给定 1024 * 2048 HDR 图像，生成的 LDR 图像的 TMQI 达到 0.90，优于所有其他当代色调映射算子。

I. INTRODUCTION

图像的动态范围是指从最亮区域到最暗区域的亮度变化[1]。大多数彩色图像的每个 RGB 通道都用每个像素 8 位整数表示 [2]。这种表示的动态范围是0到255，并且这种图像被归类为低动态范围（LDR）图像。另一种表示方法使用 16/32 位数字来量化每个通道的像素值，此类图像被归类为高动态范围 (HDR) 图像。虽然 HDR 图像更准确地匹配它们想要表示的场景，但大多数普通显示器无法显示此类图像，因此，此类图像必须从 HDR 转换为 LDR。

色调映射是将 HDR 图像转换为 LDR 图像的常用方法之一。在过去的 20 年中，人们设计了多种色调映射算子 (TMO)，并在一些特定应用中取得了成功。然而，在实践中，它们在图像内容的泛化方面存在局限性，需要耗时的自定义参数调整和专业知识才能生成高质量的 LDR 图像。

该领域的主要研究问题是：是否有可能提出一种能够自适应地对所有具有不同内容的 HDR 图像进行色调映射的 TMO？随着最近深度学习的成功以及 HDR 图像的容易获得，可以构建一个深度神经网络来学习 HDR 图像与其色调映射的 LDR 图像之间的复杂映射。

在本文中，我们通过使用对抗性深度学习来解决这个问题。我们构建了一个深度学习模型，可以自适应地将 HDR 图像转换为其色调映射的 LDR 图像。我们使用各种图像来训练模型，包括室内/室外场景、自然景观、几何形状、彩色物体和剧烈的亮度变化。

我们使用条件生成对抗网络（cGAN）[3]来实现对抗和自适应色调映射算子（adTMO）。请注意，为了测量结果图像与所需图像之间的差异，通常使用损失函数，例如预测输出与地面实况之间的绝对差异（称为 L1）或平方差异（称为 L2）。我们没有使用 L1、L2 或设计一个可以表示我们的输出和期望输出之间差异的复杂损失函数，而是实现了学习理想色调映射图像分布的网络。

对于低分辨率图像到图像的转换任务，众所周知，cGAN 在创建目标图像方面表现良好 [4]。虽然互联网上提供的大多数 HDR 图像都是高分辨率的，但将它们调整为低分辨率会丢失这些图像的许多细节。在高分辨率图像到图像的转换任务中，必须应用复杂的模型来处理耕作模式、局部模糊和饱和伪影问题[5][6]。使用高分辨率图像训练模型将消耗大量资源，包括内存和时间。我们探索使用 cGAN 模型（“UNet”G 和 PatchGAN D）的可能性，并使用调整大小的低分辨率图像对其进行训练。我们使用 [6] 中的测试数据库并使用色调映射图像质量指数 (TMQI) [7] 来评估 adTMO，它在色调映射低分辨率 HDR 图像中效果良好。当我们使用高分辨率 HDR 图像进行测试时，adTMO 在 TMQI 指标上优于所有其他 TMO。

本文的目标是构建一个可以将 HDR 图像转换为具有高 TMQI 的 LDR 图像的 cGAN。我们工作的主要贡献如下：

1）我们使用cGAN构建adTMO，它可以针对各种场景自适应生成高分辨率和高质量的LDR图像。 2）我们部署了3个训练方案和4个测试方案，探索使用低分辨率图像训练adTMO的可能性，并通过色调映射低分辨率和高分辨率HDR图像评估其有效性。

本文的结构如下：第二部分提供了与应用于图像到图像翻译领域的 TMO 和 cGAN 相关的文献综述。第三节描述了 adTMO 的架构和我们应用的不同培训/测试方案。第四节详细介绍了所使用的数据库以及在将图像输入网络之前和从网络输出之后对图像进行的处理。第五节总结了 adTMO 的结果。第六节总结了我们的论文。

II. RELATED WORK

在本节中，我们对用于图像到图像翻译任务的色调映射文献和 cGAN 进行了简短回顾。

A. TMOs

在过去的20年里，不同类型的TMO被提出来应用于不同的HDR图像。根据它们对图像的处理方式可以分为两类，即全局 TMO 和局部 TMO。全局 TMO，例如 [8] 和 [9]，对图像的所有像素应用相同的函数。它们转换 HDR 图像所需的时间较短，但生成的 LDR 图像缺乏一些对比度。本地 TMO，例如 [10]和[11]，他们根据输入及其邻近像素计算输出像素值。局部 TMO 保留局部结构并产生良好的对比度，但代价是更多的计算时间。而且，大多数 TMO 只能处理一些特定场景，不能很好地概括。

另一个问题是如何评估不同TMO的绩效。一种直观的解决方案是主观评估，其中涉及人类参与者根据他们的主观偏好对不同 TMO 生成的 LDR 图像进行排名。这种主观评价需要花费大量的时间和精力，而且不同参与者群体的结果也不稳定。 [12]。另一种解决方案是客观指标，例如 TMQI [7] 和 TMQI-II [13]，广泛用于 TMO 优化研究 [6]、[14]。 TMQI 表示一种考虑色调映射 LDR 图像的自然度以及 HDR 和色调映射 LDR 图像的结构保真度的索引形式，表示为 [7]： TMQI(H,L)= a[S(H,L) ]α+(1−a)[N(L)]β，其中 H 和 L 表示原始 HDR 图像和色调映射的 LDR 图像，S 和 N 分别表示结构保真度和统计自然度度量。 α和β控制S和N的敏感度，0≤a≤1调整它们之间的相对重要性。在本文中，我们使用[7]提供的默认α、β和a。

B. Generative Adversarial Networks

GAN 由 Goodfellow Ian 于 2014 年首次提出[15]，引起了许多领域的高度关注。 GAN 由生成器模型（G）和判别器模型（D）组成。对于G来说，它的目标是生成足够真实的假样本来愚弄D。对于D来说，它的目标是区分收集到的数据库中的真实样本和G生成的假样本。通过同时训练G和D，它们可以与各自竞争其他并达到平衡，并且 G 可以隐式地学习所收集数据库的分布，而不需要精心设计的损失函数。

在本文中，我们采用cGAN [3]，使G的目标变为以某些输入为条件生成样本。许多低分辨率图像到图像的翻译任务，例如语义标签到照片和建筑标签到照片，都使用 cGAN 创建目标图像并取得令人满意的结果 [4]。在[16]中，作者使用 cGAN 将 HDR 图像转换为 LDR 图像进行了类似的工作，但他们仅使用 256 * 256 图像裁剪进行测试。在[5]和[6]中，作者提出了用于高分辨率图像到图像任务的复杂多尺度架构。这些提出的网络需要高分辨率的训练数据库，并需要许多资源，包括内存和时间来训练。在[6]中，在 Inter Xeon e7 core i7 机器上使用 12 GB NVIDIA Titan-X GPU 训练多尺度网络需要一周时间。

III. PROPOSED METHOD

在本节中，我们将描述将 HDR 图像转换为 LDR 图像的方法、G 和 D 的架构、我们使用的目标函数以及我们部署的不同训练/测试方案。

A. cGAN-based adTMO

在本文中，我们基于cGAN [3]的原理构建了adTMO，可以将HDR图像转换为LDR图像。我们提出的 adTMO 由生成器 G 和鉴别器 D 组成，生成器 G 用于将 HDR 图像转换为其色调映射的 LDR 图像，鉴别器 D 用于区分 LDR 图像是否由 G 生成。图 1 显示了 cGAN 的训练流程。我们使用（HDR，LDR）对来训练 D，其中 D 尝试将（HDR，RealLDR）预测为真实，并将（HDR，FakeLDR）预测为假。 G 正在尝试生成足够真实的 FakeLDR，以便 D 无法区分 FakeLDR 和 RealLDR。我们同时训练G和D，具体来说，在权重设置为0.5的情况下训练D两次（一次使用（HDR，RealLDR）对，一次使用（HDR，FakeLDR）对）后，我们训练G一次。

B. Network Architectures

我们采用[4]中的网络架构，其中G是“U-Net”[17]，D是70 * 70 PatchGAN [18]，两者都使用卷积-BatchNorm-LeakyRelu块。

1) Generator Architecture:

图 2 显示了我们的 G 的架构，它是一个“U-Net”，具有 7 个编码块、1 个瓶颈块、7 个解码块和 1 个输出块。每个编码块将以步长=2的前一个块的1/4（宽度的1/2和高度的1/2）下采样图像尺寸，并且每个解码块将前一个块上采样4倍。对于第 i 个解码块，我们从最后一个编码块添加直接跳过，并在应用激活函数之前连接两个块。所有块的过滤器大小均设置为 4*4。第一个编码块的滤波器数量设置为64，每个编码块加倍，直到滤波器数量达到512，然后保持不变。每个解码块的滤波器数量与其连接的编码块相同。对于瓶颈块，滤波器数量设置为512，激活函数为ReLU。对于输出块，滤波器数量设置为1，激活函数为Sigmoid。因为我们的 G 是全卷积的，所以可以向它提供不同尺寸的 HDR 图像。

2) Discriminator Architecture:

图 3 显示了我们的 D 的架构。这是一个 70 * 70 PatchGAN，由 1 个输入层、5 个编码块和 1 个输出块组成。输入层连接输入的 HDR 和 LDR 图像。前四个编码块中的每一个都会将图像大小下采样到前一个块的 1/4，步幅=2。对于最后一个编码块，我们设置步幅=1，图像大小保持不变。每个编码块的滤波器数量为64、128、256、512和512。输出块有1个滤波器，步长=1，激活为Sigmoid，输出16*16矩阵。输出矩阵中的每个值都映射到输入层中的 70 * 70 感受野，从而识别该补丁的真假。

C. Objective Function

如前所述，G 的目标是将 HDR 图像转换为其色调映射的 LDR 版本，D 的目标是将生成的 LDR 图像与真实的色调映射 LDR 图像区分开。因此，cGAN [3]的总体目标可以写为：

除了cGAN损失之外，我们还结合了基于D的特征匹配损失LFM。我们从D的多层中提取特征，并尝试在真实和生成的LDR图像上匹配这些中间表示，即我们尝试最小化之间的差异通过 L1 范数的特征：

此外，我们附加了[19]中使用的感知损失Lprp，它由预训练的19层VGG网络[20]的每个单层的中间特征组成，由下式给出：

通过 LFM 和 Lprp，我们能够使真实 HDR 图像和生成的 LDR 图像的高级特征相似。将这些损失结合在一起，我们的最终目标表示为：

D. Training and Testing

1) Training:我们采取三种培训计划：

• 训练方案A（参见图4 中的紫色框）：所有HDR 图像的大小均调整为256 * 256 像素，并使用TMO 生成色调映射的LDR 图像。生成的 759 个 HDR-LDR 图像对用于训练 adTMO。

• 训练方案B（见图4 中的蓝色框）：该方案需要将HDR 图像调整为1024 * 1024 像素，并使用TMO 生成色调映射的LDR 图像。下一步是从 HDR 图像和 LDR 图像中随机裁剪 256 * 256 个区域，并使用这些 HDR-LDR 图像对来训练 adTMO。

• 训练方案C：将训练方案A 和B 中调整大小并裁剪的256 * 256 像素图像组合起来，以提供训练对。

所有方案都使用低分辨率256*256图像作为训练数据库，因此训练过程比使用高分辨率图像作为训练数据库花费更少的时间和资源。 Adam[21]被用作所有三种方案的优化器，学习率=0.0002，β1=0.5，β2=0.999。我们将批量大小设置为 1，并训练直到损失收敛。训练过程部署在NVIDIA GeForce RTX 2080上，每个训练过程可以在30小时内完成。

2) Testing:我们部署不同的测试方案来评估 adTMO 的性能：

• 测试方案W（见图5 红框）：使用调整大小的256 * 256 图像进行测试：我们将原始HDR 图像调整为256 * 256 像素，然后生成相应的LDR 图像。

• 测试方案X（参见图5 的蓝色框）：使用调整大小的1024 * 2048 图像进行测试：我们将原始HDR 图像调整为1024 * 2048 像素，然后生成相应的LDR 图像。

• 测试方案Y（见图5 棕色框）：使用裁剪后的256*256 图像进行测试：我们将1024*2048 HDR 图像裁剪成256*256 块，然后生成相应的LDR 图像。

• 测试方案Z（见图5紫色框）：用4 * 8串联裁剪的256 * 256图像进行测试：我们将1024 * 2048 HDR图像裁剪成32 256 * 256块，生成相应的LDR图像，然后将它们连接在一起 1024 * 2048 幅图像。

IV. EXPERIMENT SETUP

在本节中，我们将详细介绍所使用的 HDR 数据库、HDR 图像在输入网络之前是如何处理的，以及如何处理网络输出以生成 LDR 图像。

A. Databases

从可在线访问的许多开源 HDR 图像数据库中，我们根据数据库的多样性、可用性、图像大小和质量来选择数据库。表一总结了我们使用的 HDR 图像数据库，其中大多数是高分辨率的。我们使用[22]中的 105 张图像来测试 adTMO，并使用其他数据库中的 759 张图像来训练 adTMO。

B. Resizing

为了进行训练，我们使用了两组不同的分辨率为 256 * 256 的图像。第一组图像是调整大小为 256 * 256 的原始图像（基于训练方案 A），而第二组图像是从调整大小的 1024 * 1024 图像中随机裁剪的（基于训练方案 B）。测试基于调整大小的 256 * 256 和 1024 * 2048 图像。

C. Target LDR Images Generation

所有收集的 HDR 图像均未标记，即缺少真实色调映射的 LDR 图像。为了解决这个问题，对于每个 HDR 图像，我们使用 MATLAB HDR TOOLBOX [32]对其应用了 30 个不同的 TMO，以获得 30 个 LDR 候选图像。根据 MATLAB HDR TOOLBOX 的建议，我们在色调映射后应用了 GammaTMO，因为特定的 TMO 需要伽玛编码。从这些候选图像中，我们选择了 TMQI 最高的一张作为真实 LDR 图像。表 II 总结了每个 TMO 应用于调整大小的 256 * 256 HDR 图像时的性能。在表 II 中，对于每个 TMO，我们提供了将其应用于整个训练集后的平均 TMQI，以及 30 个候选中具有最高 TMQI 的 LDR 图像的数量。最后一行列出了所选 759 个目标 LDR 图像的平均 TMQI。

D. Normalization

我们将输入图像的像素值线性归一化为[0, 1]。对于输入 HDR 图像，应用最小/最大归一化： vout = (vin−vmin)/(vmax−vmin) ，其中 vmax 和 vmin 是 HDR 图像的最大和最小像素值。对于输入 LDR 图像，我们应用 vout = vin/255 进行归一化。

E. Luminance Extraction and Color Reproduction

在训练和测试阶段，我们使用图像的亮度通道而不是 RGB 通道来简化计算过程。在训练之前，我们计算 RGB 通道的加权和，以使用[6]中的权重提取亮度通道：L =0.2959*CR+0.5870*CG +0.1140*CB。从 G 生成亮度通道后，我们使用 Cout = Cin/Lin · Lout 来再现 RGB 通道，其中 Lin 是输入亮度通道，Lout 是生成的亮度通道，Cin 是原始 HDR 图像的 RGB 通道，Cout 是原始 HDR 图像的 RGB 通道。色彩再现后生成的 LDR 图像的 RGB 通道。色彩再现后，一些像素值大于255，将它们设置为255以保持8位RGB范围。

V. RESULTS

在本节中，我们根据不同训练/测试方案中生成的 LDR 图像的质量来讨论 adTMO 的结果。

图 6 演示了在不同的训练/测试方案中，色彩再现后在 RGB 通道中生成的一张 LDR 图像。我们没有单独显示测试方案Y中生成的LDR图像，因为它们是测试方案Z中用于构建图像的图像。测试方案W（a，d，g）中的LDR图像具有更高的TMQI，但这样的转换是毫无意义，因为在调整大小操作中会丢失许多细节。训练方案 A (b, c) 中测试方案 X、Z 的 LDR 图像具有较低的 TMQI，并且树木周围有阴影，因为我们仅使用调整大小的 256 * 256 图像来训练 adTMO，因为原始图像中的许多精细细节都丢失了。将裁剪后的图像添加到训练数据库中后，adTMO 能够学习如何保留原始图像的更精细的细节。因此，训练方案B、C(e、h)中测试方案X的LDR图像看起来更自然并且具有更高的TMQI。测试方案 Z (c, f, i) 的 LDR 图像显示“连接”边缘，因为将完整图像裁剪成多个片段并分别生成其色调映射的 LDR 图像会破坏这些片段之间的惯性连接。未来的工作是生成这些单独的图像并以去除这些边缘的方式组合它们，同时保持每个单独图像的高对比度。

我们决定使用训练方案 C 来训练 adTMO，使用测试方案 W 来色调映射 256 * 256 图像，并使用测试方案 X 来色调映射 1024 * 2048 图像，因为训练方案 C 具有更大的训练数据集和生成的 LDR 图像 (g, h) 具有更高的 TMQI。

在图 7 中，我们展示了 adTMO 与排名前 9 的其他 TMO 的定性比较，这些 TMO 在生成 1024 * 2048 图像时，在两种场景（室外和室内）中产生最高 TMQI。我们的 adTMO 在 TMQI 上优于所有其他 30 个 TMO，并且 adTMO 生成的 LDR 图像不会像其他 TMO 生成的 LDR 图像那样遇到对比度问题。表 III 列出了由 30 个 TMO 和建议的 adTMO 进行色调映射的测试集的 TMQI。总体而言，对于高分辨率 1024*2048 图像，adTMO 输出具有最高的 TMQI，并且与 256*256 图像的结果相当。

VI. CONCLUSION

本文提供了一种基于 cGAN 的自适应色调映射，称为 adTMO。它部署了多种训练/测试方案来探索使用低分辨率图像训练 adTMO 的可能性，并评估其使用色调映射低分辨率和高分辨率 HDR 图像的有效性。我们的 adTMO 可以自适应地对各种内容的 HDR 图像进行色调映射，并且在生成低分辨率图像方面效果良好。在生成高分辨率图像时，生成的LDR图像的质量（以TMQI衡量）达到0.90±0.06，高于所有其他当代TMO。我们的 adTMO 还优于 [6] 中报告的多尺度 DeepTMO，在生成 1024 * 2048 高分辨率 LDR 图像时，TMQI 指标达到 0.88 ± 0.06。