【论文】低光图像增强的零参考深度曲线估计

瑾怀轩

已于 2022-06-19 11:27:50 修改

阅读量2.4k

点赞数 3

分类专栏：论文集

于 2022-05-01 11:47:06 首次发布

本文链接：https://blog.csdn.net/ckq707718837/article/details/124282309

版权

深度学习人工智能计算机视觉

论文集专栏收录该内容

10 篇文章

订阅专栏

Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement

连接：Zero-Reference Deep Curve Estimation for Low-Light Image EnhancementZero-Reference Deep Curve Estimation for Low-Light Image Enhancement.https://li-chongyi.github.io/Proj_Zero-DCE.html

一、摘要

本文提出了一种新颖的方法，零参考深度曲线估计 (Zero-DCE)，它将光增强公式化为具有深度网络的图像特定曲线估计的任务。我们的方法训练轻量级深度网络 DCE-Net，以估计给定图像的动态范围调整的像素级和高阶曲线。曲线估计是专门设计的，考虑了像素值范围、单调性和可微性。零 - DCE 的吸引力在于其对参考图像的宽松假设，即它在训练期间不需要任何配对或非配对数据。这是通过一组精心制定的非参考损失函数来实现的，这些函数隐含地衡量增强质量并推动网络的学习。我们的方法是有效的，因为可以通过直观且简单的非线性曲线映射来实现图像增强。尽管它很简单，但我们表明它可以很好地推广到不同的照明条件。对各种基准的广泛实验证明了我们的方法在定性和定量上优于最先进的方法。此外，还讨论了我们的 Zero-DCE 在黑暗中进行人脸检测的潜在好处。

一、引言

由于不可避免的环境和/或技术限制，许多照片通常是在次优照明条件下拍摄的。这些包括环境中的照明条件不足和不平衡，物体在极端背光下的放置不正确，以及图像捕获期间曝光不足。这种低光照片的美感质量受损，信息传输不理想。前者会影响观众的体验，而后者会导致传达错误的信息，例如不准确的物体/面部识别。

图 1：典型低光图像的视觉比较。所提出的 Zero-DCE 在亮度、颜色、对比度和自然度方面实现了视觉上令人愉悦的结果，而现有方法要么无法应对极端的背光，要么会产生颜色伪影。与其他基于深度学习的方法相比，我们的方法是在没有任何参考图像的情况下进行训练的。

在这项研究中，我们提出了一种新颖的基于深度学习的方法，零参考深度曲线估计 (Zero DCE)，用于低光图像增强。它可以应对各种照明条件，包括不均匀和照明不佳的情况。我们没有执行图像到图像的映射，而是将任务重新表述为图像特定的曲线估计问题。特别是，所提出的方法以低光图像作为输入，并产生高阶曲线作为其输出。然后将这些曲线用于对输入的动态范围进行逐像素调整，以获得增强的图像。曲线估计经过精心设计，以保持增强图像的范围并保持相邻像素的对比度。

重要的是，它是可微的，因此我们可以通过深度卷积神经网络学习曲线的可调参数。所提出的网络是轻量级的，它可以迭代地应用于近似高阶曲线，以实现更稳健和准确的动态范围调整。

我们基于深度学习的方法的一个独特优势是零参考，即它在训练过程中不需要任何配对甚至不配对的数据，就像现有的基于 CNN 的 [28,32] 和基于 GAN 的方法 [12, 38]。这是通过一组专门设计的非参考损失函数实现的，包括空间一致性损失、曝光控制损失、颜色恒定性损失和照明平滑度损失，所有这些都考虑了多因素的光增强。我们表明，即使使用零参考训练，Zero-DCE 仍然可以与其他需要配对或非配对数据进行训练的方法竞争。图 1 显示了增强包含非均匀照明的弱光图像的示例。与最先进的方法相比，Zero-DCE 在保留固有颜色和细节的同时使图像变亮。相比之下，基于 CNN 的方法 [28] 和基于 GAN 的 Enlighten GAN [12] 都产生了低于（人脸）和高于（柜子）的增强。

我们的贡献总结如下。

1）我们提出了第一个独立于配对和非配对训练数据的低光增强网络，从而避免了过拟合的风险。因此，我们的方法可以很好地推广到各种光照条件。
2）我们设计了一个图像特定的曲线，它能够通过迭代应用自身来近似像素级和更高阶的曲线。这样的图像特定曲线可以在宽动态范围内有效地进行映射。
3) 我们通过间接评估增强质量的任务特定的非参考损失函数展示了在没有参考图像的情况下训练深度图像增强模型的潜力。

我们的零 DCE 方法在定性和定量指标上都取代了最先进的性能。更重要的是，它能够改进高级视觉任务，例如人脸检测，而不会造成高计算负担。它能够实时处理图像（GPU 上大小为 640×480×3 的图像大约 500 FPS）并且只需要 30 分钟的训练时间。

二、相关工作

常规方法。基于 HE 的方法通过扩展图像的动态范围来执行光增强。图像的直方图分布在全局 [7, 10] 和局部级别 [15, 27] 上都进行了调整。还有各种采用 Retinex 理论 [13] 的方法，通常将图像分解为反射率和照明度。通常假设反射分量在任何光照条件下都是一致的；因此，光增强被表述为一个光照估计问题。基于 Retinex 理论，已经提出了几种方法。王等人[29] 在处理非均匀照明图像时设计了一种自然性和信息保存方法；傅等人 [8] 提出了一种加权变化模型来同时估计输入图像的反射率和照度；郭等人[9]首先通过搜索RGB通道中每个像素的最大强度来估计粗略的光照图，然后通过结构先验细化粗略的光照图；李等人[19] 提出了一种考虑噪声的新 Retinex 模型。通过解决优化问题来估计光照图。与偶然改变图像直方图分布或依赖潜在不准确物理模型的传统方法相反，所提出的零 DCE 方法通过图像特定曲线映射产生增强的结果。这种策略可以在图像上进行光增强，而不会产生不切实际的伪影。 Yuan 和 Sun [36] 提出了一种自动曝光校正方法，其中通过全局优化算法估计给定图像的 S 形曲线，并通过曲线映射将每个分割区域推到其最佳区域。与[36]不同，我们的Zero-DCE是一种纯数据驱动的方法，在设计非参考损失函数时考虑了多种光增强因素，因此具有更好的鲁棒性、更宽的图像动态范围调整和更低的计算负担。

数据 - 驱动方法。数据驱动的方法主要分为两个分支，即基于 CNN 的方法和基于 GAN 的方法。大多数基于 CNN 的解决方案依赖于配对数据进行监督训练，因此它们是资源密集型的。通常，配对数据是通过自动光衰减、在数据捕获期间更改相机设置或通过图像修饰合成数据来详尽收集的。例如，LL Net [20] 接受了随机 Gamma 校正模拟数据的训练；通过在图像采集过程中改变曝光时间和 ISO 来收集成对的低光/正常光图像的 LOL 数据集 [32]； MIT - Adobe Five K 数据集 [3] 包含 5,000 张原始图像，每张图像都有五张由训练有素的专家制作的修饰图像。

最近，王等人 [28] 通过估计光照图提出了一种曝光不足的照片增强网络。该网络接受了由三位专家修饰的配对数据的训练。可以理解的是，考虑到收集足够的配对数据所涉及的高成本以及在训练深度模型中包含虚假和不切实际的数据，基于配对数据的光增强解决方案在许多方面是不切实际的。这种约束反映在基于 CNN 的方法的泛化能力差。当这些方法与各种光强度的真实世界图像一起呈现时，通常会产生伪影和偏色。

图 2：（a）Zero - DCE 的框架。 DCE-Net 旨在估计一组最佳拟合光增强曲线（LE-曲线），以迭代地增强给定的输入图像。 (b, c) LE - 具有不同调整参数 α 和迭代次数 n 的曲线。在(c)中，α 1 、α 2 和α 3 等于-1，而n等于4。在每个子图中，水平轴表示输入像素值，而垂直轴表示输出像素值。

基于无监督 GAN 的方法具有消除用于训练的配对数据的优势。 Enlighten GAN [12]，一种基于无监督 GAN 的先驱方法，它学习使用未配对的低光/正常光数据来增强低光图像。该网络是通过考虑精心设计的鉴别器和损失函数来训练的。然而，基于 GAN 的无监督解决方案通常需要仔细选择未配对的训练数据。

所提出的 Zero-DCE 在三个方面优于现有的数据驱动方法。首先，它探索了一种新的学习策略，即需要零参考的学习策略，从而消除了对配对和非配对数据的需求。其次，通过考虑仔细定义的非参考损失函数来训练网络。该策略允许隐式评估输出图像质量，其结果将被重复用于网络学习。第三，我们的方法高效且具有成本效益。这些优势得益于我们的零参考学习框架、轻量级网络结构和有效的非参考损失函数。

3. 方法论

我们在图 2 中展示了 Zero-DCE 的框架。设计了一个深度曲线估计网络 (DCE-Net)，以估计给定输入图像的一组最佳拟合光增强曲线 (LE-curve)。然后，该框架通过迭代地应用曲线来映射输入 RGB 通道的所有像素，以获得最终的增强图像。接下来，我们将详细介绍 Zero-DCE 中的关键组件，即 LE-curve、DCE-Net 和非参考损失函数。

3.1、光 - 增强曲线（LE - 曲线）

受照片编辑软件中使用的曲线调整的启发，我们尝试设计一种可以将低光图像自动映射到增强版本的曲线，其中自适应曲线参数完全依赖于输入图像。设计这样一条曲线有三个目标：1）增强图像的每个像素值应在[0,1]的归一化范围内，以避免溢出截断引起的信息丢失； 2）这条曲线应该是单调的，以保持相邻像素的差异（对比度）； 3）在梯度反向传播过程中，这条曲线的形式应该尽可能简单和可微。

为了实现这三个目标，我们设计了一条二次曲线，可以表示为

其中x表示像素坐标，LE(I(x);α)是给定输入I(x)的增强版，α ∈ [−1, 1]是可训练曲线参数，调整LE-曲线的大小并且还控制曝光级别。每个像素都归一化为 [0, 1] 并且所有操作都是像素级的。我们将 LE - 曲线分别应用于三个 RGB 通道，而不是单独应用于照明通道。三通道调节可以更好地保留固有色彩，降低过度饱和的风险。我们在补充材料中报告了更多细节。

图 2(b) 显示了具有不同调整参数 α 的 LE 曲线。很明显，LE-曲线符合上述三个目标。此外，LE - 曲线使我们能够增加或减少输入图像的动态范围。这种能力不仅有利于增强弱光区域，而且去除过度曝光的伪影。

图 3：逐像素曲线参数图的示例。为了可视化，我们对所有迭代（n = 8）的曲线参数图进行平均，并将值标准化为 [0, 1] 的范围。 A n (R) 、A n (G) 和 A n (B) 分别表示 R、G 和 B 通道的平均最佳拟合曲线参数图。 (b)、(c) 和 (d) 中的地图由热图表示。

高阶曲线.方程中定义的 LE 曲线。 (1) 可以反复应用，以实现更通用的调整，以应对具有挑战性的低光照条件。具体来说，

其中n是迭代次数，它控制曲率。在本文中，我们将 n 的值设置为 8，这可以满足大多数情况。方程。（2）可以降级为方程式。 (1)当n等于1时。图2(c)提供了一个例子，展示了不同α和n的高阶曲线，它比图2(b)中的曲线具有更强的调节能力(即更大的曲率) .

像素 - 明智的曲线。更高阶的曲线可以在更宽的动态范围内调整图像。尽管如此，它仍然是一个全局调整，因为 α 用于所有像素。全局映射倾向于过度/不足地增强局部区域。为了解决这个问题，我们将 α 公式化为像素级参数，即给定输入图像的每个像素都有一条对应的曲线，该曲线具有最佳拟合 α 以调整其动态范围。因此，方程。 (2) 可改写为：

其中 A 是与给定图像大小相同的参数映射。在这里，我们假设局部区域中的像素具有相同的强度（也具有相同的调整曲线），因此输出结果中的相邻像素仍然保持单调关系。这样，像素级高阶曲线也符合三个目标。

我们在图 3 中给出了三个通道的估计曲线参数图的示例。如图所示，不同通道的最佳拟合参数图具有相似的调整趋势但值不同，表明了弱光图像的三个通道之间的相关性和差异。曲线参数图准确地指示了不同区域的亮度（例如，墙上的两个闪光）。通过拟合图，可以直接通过逐像素曲线映射获得增强版图像。如图 3(e) 所示，增强版显示了暗区的内容并保留了亮区。

3.2. DCE - 网络

为了学习输入图像与其最佳拟合曲线参数图之间的映射，我们提出了一个深度曲线估计网络（DCE-Net）。 DCE-Net 的输入是低光照图像，而输出是一组对应高阶曲线的像素级曲线参数图。我们采用了具有对称连接的七个卷积层的普通 CNN。每层由 32 个大小为 3×3 且步幅为 1 的卷积核组成，后跟 Re LU 激活函数。我们丢弃了破坏相邻像素关系的下采样和批量归一化层。最后一个卷积层之后是 Tanh 激活函数，它为 8 次迭代（n = 8）生成 24 个参数图，其中每次迭代需要三个通道的三个曲线参数图。 DCE Net 的详细架构在补充材料中提供。值得注意的是，对于大小为 256×256×3 的输入图像，DCE-Net 只有 79,416 个可训练参数和 5.21 G Flops。因此，它是轻量级的，可用于计算资源有限的设备，例如移动平台。

3.3.非参考损失函数

为了在 DCE-Net 中实现零参考学习，我们提出了一组可微的非参考损失，使我们能够评估增强图像的质量。采用以下四种类型的损失来训练我们的 DCE-Net。空间一致性损失 L（spa）通过保留输入图像与其增强版本之间相邻区域的差异来促进增强图像的空间一致性：

其中 K 是局部区域的数量，Ω(i) 是以区域 i 为中心的四个相邻区域（上、下、左、右）。我们将 Y 和 I 分别表示为增强版本和输入图像中局部区域的平均强度值。我们凭经验将局部区域的大小设置为 4×4。考虑到其他区域大小，这种损失是稳定的。

图 4：每个损失的贡献的消融研究（空间一致性损失 L spa ，曝光控制损失 L exp ，颜色恒定性损失 L col ，照明平滑度损失 L tv A ）。

曝光控制损失。为了抑制曝光不足/过度曝光的区域，我们设计了一个曝光控制损失 L exp 来控制曝光水平。曝光控制损失测量局部区域的平均强度值与曝光水平 E 之间的距离。我们按照现有的做法 [23,24] 将 E 设置为 RGB 颜色空间中的灰度级。我们在实验中将 E 设置为 0.6，尽管通过将 E 设置在 [0.4, 0.7] 内并没有发现太大的性能差异。损失 L exp 可以表示为：

其中 M 表示大小为 16×16 的非重叠局部区域的数量，Y 是增强图像中局部区域的平均强度值。颜色恒定性损失。遵循 Gray - World 颜色恒常性假设 [2]，即每个传感器通道中的颜色在整个图像上平均为灰色，我们设计了一个颜色恒常性损失来纠正增强图像中的潜在颜色偏差，并建立三个调整后通道之间的关系.颜色恒常性损失 L col 可以表示为：

其中J ^p 表示增强图像中p通道的平均强度值，(p,q)表示一对通道。

照明平滑度损失。为了保持相邻像素之间的单调性关系，我们在每个曲线参数图 A 中添加了光照平滑损失。光照平滑损失 L tv A 定义为：

其中 N 是迭代次数，∇ x 和 ∇ y 分别代表水平和垂直梯度操作。

总体损失函数。总损失可以表示为：

其中 W col 和 W tv A 是损失的权重。

4. 实验

实施细节。基于 CNN 的模型通常使用自我捕获的配对数据进行网络训练 [5、17、28、30、32、33]，而基于 GAN 的模型则精心选择未配对数据 [6、11、12、16、35]。为了充分发挥宽动态范围调整的能力，我们将低光和过度曝光的图像都纳入我们的训练集中。为此，我们使用来自 SICE 数据集 [4] 第 1 部分的 360 个多重曝光序列来训练提出的 DCE-Net。该数据集还用作 Enlighten GAN [12] 中训练数据的一部分。我们将 Part1 子集 [4] 中的 3,022 张不同曝光水平的图像随机分成两部分（2,422 张图像用于训练，其余用于验证）。我们将训练图像的大小调整为 512×512。

我们在 NVIDIA 2080 Ti GPU 上使用 Py Torch 实现我们的框架。应用批量大小为 8。每一层的滤波器权重用标准零均值和 0.02 标准差的高斯函数初始化。偏差被初始化为一个常数。我们使用具有默认参数和固定学习率 1e -4 的 ADAM 优化器进行网络优化。权重 W col 和 W tv A 分别设置为 0.5 和 20，以平衡损失规模。

4.1、消融研究

我们进行了几项消融研究，以证明 Zero - DCE 的每个组件的有效性如下。在补充材料中可以找到更多的定性和定量比较。

每个损失的贡献。我们在图 4 中展示了通过各种损失组合训练的零 DCE 的结果。没有空间一致性损失 L spa 的结果与完整结果相比具有相对较低的对比度（例如，云区域）。这表明了 L spa 在保留输入和增强图像之间相邻区域的差异方面的重要性。去除曝光控制损失L exp 无法恢复低光区域。当丢弃颜色恒常性损失 L col 时，会出现严重的色偏。当应用曲线映射时，此变体忽略三个通道之间的关系。最后，去除光照平滑损失 L tv A 会阻碍相邻区域之间的相关性，从而导致明显的伪影。

参数设置的影响。我们评估效果Zero - DCE 中的参数，由 DCE - Net 的深度和宽度以及迭代次数组成。图 5 显示了一个可视化示例。

图 5：参数设置效果的消融研究。 l - f - n 表示建议的 Zero - DCE，具有 l 个卷积层、每层的 f 个特征图（最后一层除外）和 n 次迭代。

在图 5(b) 中，只有三个卷积层，Zero - DCE 3-32-8 已经可以产生令人满意的结果，表明零参考学习的有效性。 Zero - DCE 7-32-8 和 Zero DCE 7-32-16 产生最令人愉悦的视觉效果，具有自然曝光和适当的对比度。通过将迭代次数减少到 1，在零 - DCE 7-32-1 上观察到性能明显下降，如图 5(d) 所示。这是因为仅单次迭代的曲线调整能力有限。这表明我们的方法需要高阶曲线。鉴于其在效率和恢复性能之间的良好折衷，我们选择零 - DCE7-32-8 作为最终模型。

训练数据的影响。为了测试训练数据的影响，我们在不同的数据集上重新训练了 Zero-DCE：1）原始训练集中的 2422 张图像中只有 900 张低光图像（Zero-DCE Low），2）9000 张未标记的低光图像在 DARK FACE 数据集 [37]（Zero DCE Large L）中提供，以及 3）来自 SICE 数据集 [4]（Zero - DCE Large LH）中 Part1 和 Part2 子集的数据增强组合的 4800 张多曝光图像。如图 6(c) 和 (d) 所示，在去除过度曝光的训练数据后，Zero-DCE 倾向于过度增强光线充足的区域（例如，面部），尽管使用了更多的低 -光图像，（即Zero DCE Large L ）。这些结果表明在我们的网络训练过程中使用多曝光训练数据的合理性和必要性。此外，当使用更多的多重曝光训练数据（即 Zero - DCE Large LH）时，Zero DCE 可以更好地恢复暗区，如图 6（e）所示。为了与其他基于深度学习的方法进行公平比较，我们使用与它们相当数量的训练数据，尽管更多的训练数据可以为我们的方法带来更好的视觉性能。

图 6：关于训练数据影响的消融研究。

4.2.基准评估

我们将 Zero-DCE 与几种最先进的方法进行比较：三种常规方法（SRIE [8]、LIME [9]、Li 等人 [19]）、两种基于 CNN 的方法（Retinex Net [32] ，Wang et al. [28]）和一种基于 GAN 的方法（Enlighten GAN [12]）。通过使用具有推荐参数的公开可用源代码来复制结果。

我们对来自先前作品的标准图像集进行定性和定量实验，包括 NPE [29]（84 图像）、LIME [9]（10 图像）、MEF [22]（17 图像）、DICM [14]（64 图像）、和 VV ‡（24 张图像）。此外，我们在 SICE 数据集 [4] 的 Part2 子集上定量验证了我们的方法，该子集由 229 个多重曝光序列和每个多重曝光序列的相应参考图像组成。为了公平比较，我们只使用 Part2 子集 [4] 的低光图像进行测试，因为基线方法不能很好地处理过度曝光的图像。具体来说，如果在多重曝光序列中有七张（分别是九张）图像，我们选择前三张（分别是四张）低光图像，并将所有图像的大小调整为 1200×900×3。最后，我们获得了 767 对低光/正常光图像。我们丢弃了 [37] 中提到的低光/正常光图像数据集，因为 Retinex Net [32] 和 Enlighten GAN [12] 的训练数据集包含来自该数据集的一些图像。请注意，[28] 中构建的最新配对训练和测试数据集不公开。我们没有使用 MIT - Adobe Five K 数据集 [3]，因为它主要不是为曝光不足的照片增强而设计的。

4.2.1 视觉和感知比较

我们在图 7 中展示了典型低光图像的视觉比较。对于具有挑战性的背光区域（例如，图 7(a) 中的面部），Zero - DCE 产生自然曝光和清晰的细节，而 SRIE [8] ，石灰[9]，王等人。 [28] 和 Enlighten GAN [12] 无法清晰地恢复人脸。 Retinex Net [32] 产生过度暴露的伪影。在第二个以室内场景为特色的示例中，我们的方法同时增强了暗区并保留了输入图像的颜色。结果在视觉上令人愉悦，没有明显的噪点和偏色。相比之下，李等人。 [19] 过度平滑细节，而其他基线放大噪声，甚至产生颜色偏差（例如，墙壁的颜色）。

图 7：典型低光图像的视觉比较。红色框表示明显的差异。

我们进行用户研究以量化各种方法的主观视觉质量。我们通过不同的方法处理来自图像集（NPE、LIME、MEF、DICM、VV）的低光图像。对于每个增强的结果，我们将其显示在屏幕上并提供输入图像作为参考。共邀请 15 名人类受试者对增强图像的视觉质量进行独立评分。

数据集https://sites.google.com/site/vonikakis/%20datasets这些主题通过观察来自 1) 的结果进行训练，结果是否包含过度 - / 不足 - 曝光的伪影或过度 - / 不足的区域； 2）结果是否引入颜色偏差； 3）结果是否有不自然的纹理和明显的噪点。视觉质量的分数范围从 1 到 5（最差到最好的质量）。表 1 中报告了每个图像集的平均主观分数。如表 1 所示，Zero-DCE 在来自上述图像集的总共 202 个测试图像中获得了最高的平均用户研究 (US) 分数。对于 MEF、DICM 和 VV 集，我们的结果最受受试者青睐。除了平均用户研究分数，我们还采用非参考感知指数 (PI) [1,21,25] 来评估感知质量。 PI 度量最初用于测量图像超分辨率中的感知质量。它还被用于评估其他图像恢复任务的性能，例如图像去雾 [26]。较低的 PI 值表示更好的感知质量。 PI 值也在表 1 中报告。与用户研究类似，建议的 Zero-DCE 在平均 PI 值方面优于其他竞争方法。

4.2.2 定量比较

对于全参考图像质量评估，我们采用峰值信噪比 (PSNR,d B)、结构相似度 (SSIM) [31] 和平均绝对误差 (MAE) 指标来定量比较不同方法的性能在 Part2 子集 [4] 上。在表 2 中，提出的 Zero-DCE 在所有情况下都达到了最佳值，尽管它不使用任何配对或不配对的训练数据。 Zero - DCE 计算效率也很高，得益于简单的曲线映射形式和轻量级的网络结构。表 3 显示了不同方法在 32 张大小为 1200×900×3 的图像上的平均运行时间（运行时间是在配备 Nvidia GTX 2080 Ti GPU 和 Intel I7 6700 CPU 的 PC 上测量的，Wang 等人除外。 [28]，它必须在 GTX 1080 Ti GPU 上运行。）。对于常规方法，只有 CPU 版本的代码可用。

表 1：图像集（NPE、LIME、MEF、DICM、VV）上的用户研究 (US)1/感知指数 (PI)} 得分。较高的 US 分数表明更好的人类主观视觉质量，而较低的 PI 值表明更好的感知质量。在每种情况下，最好的结果是红色的，而第二好的结果是蓝色的。

表 2：在全参考图像质量评估指标方面的定量比较。在每种情况下，最好的结果是红色的，而第二好的结果是蓝色的。

表 3：运行时 (RT) 比较（以秒为单位）。最好的结果是红色，而第二好的结果是蓝色。

4.2.3 黑暗中的人脸检测

我们研究了弱光图像增强方法在弱光条件下人脸检测任务的性能。具体来说，我们使用最新的 DARK FACE 数据集 [37]，该数据集由 10,000 张在黑暗中拍摄的图像组成。由于测试集的边界框不公开，我们对包含 6000 张图像的训练集和验证集进行评估。使用在 WIDER FACE 数据集 [34] 上训练的最先进的深度人脸检测器 Dual Shot Face Detector (DSFD) [18] 作为基线模型。我们将不同低光图像增强方法的结果提供给 DSFD [18]，并在图 8 中描绘了准确率 - 召回率 (P - R) 曲线。此外，我们还使用评估比较了平均准确率 (AP)工具¶ 在 DARK FACE 数据集 [37] 中提供。

GitHub - Ir1d/DARKFACE_eval_toolsContribute to Ir1d/DARKFACE_eval_tools development by creating an account on GitHub.https://github.com/Ir1d/DARKFACE_eval_tools

图 8：黑暗中人脸检测的性能。 PR 曲线、AP 以及我们的 Zero - DCE 增强前后的两个人脸检测示例。

如图 8 所示，在图像增强后，DSFD [18] 的精度与使用未增强的原始图像相比有显着提高。在不同的方法中，Retinex Net [32] 和 Zero - DCE 表现最好。两种方法具有可比性，但 Zero-DCE 在高召回率区域表现更好。观察这些例子，我们的 Zero-DCE 照亮了极暗区域的人脸并保留了光线充足的区域，从而提高了人脸检测器在黑暗中的性能。

5. 结论

我们提出了一种用于低光图像增强的深度网络。它可以用零参考图像进行端到端训练。这是通过将低光图像增强任务制定为图像特定的曲线估计问题，并设计一组可微的非参考损失来实现的。实验证明了我们的方法相对于现有的光增强方法的优越性。在未来的工作中，我们将尝试引入语义信息来解决困难案例并考虑噪声的影响。

致谢

本研究得到国家自然科学基金资助
(61771334,61632018,61871342), Sense Time - NTU Collaboration Project, Singapore MOE Ac RF Tier 1 (2018 - T1 - 002 - 056), NTU SUG, NTU NAP, 中央高校基本科研业务费 (2019 RC039), 中国博士后科学基金 (2019 M660438), 香港 RGG (9048123) (City U 21211518), Hong Kong GRF - RGC General Research Fund (9042322,9042489,9042816)。

参考

[1] Yochai Blau and Tomer Michaeli. The perception-distortion tradeoff. In CVPR, 2018. 7

[2] Gershon Buchsbaum. A spatial processor model for object colour perception. J. Franklin Institute, 310(1):1–26, 1980. 5

[3] Vladimir Bychkovsky, Sylvain Paris, Eric Chan, and Fr´edo Durand. Learning photographic global tonal adjustment with a database of input/output image pairs. In CVPR, 2011. 2, 6

[4] Jianrui Cai, Shuhang Gu, and Lei Zhang. Learning a deep single image contrast enhancer from multi-exposure image. IEEE Transactions on Image Processing, 27(4):2049–2026, 2018. 5, 6, 7

[5] Chen Chen, Qifeng Chen, Jia Xu, and Koltun Vladlen.

[18] Jian Li, Yabiao Wang, Changan Wang, Ying Tai, Jianjun Qian, Jian Yang, Chengjie Wang, Jilin Li, and Feiyuen Huang. Dsfd: Dual shot face detector. In CVPR, 2019. 8

[19] Mading Li, Jiaying Liu, Wenhan Yang, Xiaoyan Sun, and Zongming Guo. Structure-revealing low-light image enhancement via robust retinex model. IEEE Transactions on Image Processing, 27(6):2828–2841, 2018. 2, 6, 7, 8

[20] Kin Gwn Lore, Adedotun Akintayo, and Soumik Sarkar. Llnet: A deep autoencoder approach to natural low-light image enhancement. Pattern Recognition, 61:650–662, 2017. 2

Learning to see in the dark. In CVPR, 2018. 5

[21] Chao Ma, Chih-Yuan Yang, Xiaokang Yang, and MingHsuan Yang. Learning a no-reference quality metric for single-image super-resolution. Computer Vision and Image Understanding, 158:1–16, 2017. 7

[6] Yusheng Chen, Yuching Wang, Manhsin Kao, and Yungyu Chuang. Deep photo enhancer: Unpaired learning for image enhancement from photographs with gans. In CVPR, 2018. 5

[7] Dinu Coltuc, Philippe Bolon, and Jean-Marc Chassery. Exact histogram speciﬁcation. IEEE Transactions on Image Processing, 15(5):1143–1152, 2006. 2

[8] Xueyang Fu, Delu Zeng, Yue Huang, Xiao-Ping Zhang, and Xinghao Ding. A weighted variational model for simultaneous reﬂectance and illumination estimation. In CVPR, 2016. 2, 6, 7, 8

[9] Xiaojie Guo, Yu Li, and Haibin Ling. Lime: Low-light image enhancement via illumination map estimation. IEEE Transactions on Image Processing, 26(2):982–993, 2017. 2, 6, 7, 8

[10] Haidi Ibrahim and Nicholas Sia Pik Kong. Brightness preserving dynamic histogram equalization for image contrast enhancement. IEEE Transactions on Consumer Electronics, 53(4):1752–1758, 2007. 2

[11] Andrey Ignatov, Nikolay Kobyshev, Radu Timofte, Kenneth Vanhoey, and Luc Van Gool. Wespe: Weakly supervised photo enhancer for digital cameras. In CVPRW, 2018. 5

[12] Yifan Jiang, Xinyu Gong, Ding Liu, Yu Cheng, Chen Fang, Xiaohui Shen, Jianchao Yang, Pan Zhou, and Zhangyang Wang. EnlightenGAN: Deep light enhancement without paired supervision. In CVPR, 2019. 1, 2, 3, 5, 6, 7, 8

[13] Edwin H Land. The retinex theory of color vision. Scientiﬁc American, 237(6):108–128, 1977. 2

[14] Chulwoo Lee, Chul Lee, and Chang-Su Kim. Contrast enhancement based on layered difference representation. In ICIP, 2012. 6

[15] Chulwoo Lee, Chul Lee, and Chang-Su Kim. Contrast enhancement based on layered difference representation of 2d histograms. IEEE Transactions on Image Processing, 22(12):5372–5384, 2013. 2

[16] Chongyi Li, Chunle Guo, and Jichang Guo. Underwater image color correction based on weakly supervised color transfer. IEEE Signal Processing Letters, 25(3):323–327, 2018. 5

[17] Chongyi Li, Jichang Guo, Fatih Porikli, and Yanwei Pang.

Lightennet: a convolutional neural network for weakly illu-

[22] Kede Ma, Kai Zeng, and Zhou Wang. Perceptual quality assessment for multi-exposure image fusion. IEEE Transactions on Image Processing, 24(11):3345–3356, 2015. 6

[23] Tom Mertens, Jan Kautz, and Frank Van Reeth. Exposure fusion. In PCCGA, 2007. 5

[24] Tom Mertens, Jan Kautz, and Frank Van Reeth. Exposure fusion: A simple and practrical alterrnative to high dynamic range photography. Computer Graphics Forum, 28(1):161171, 2009. 5

[25] Anish Mittal, Rajiv Soundararajan, and Alan C. Bovik. Making a “completely blind” image quality analyzer. IEEE Signal Processing Letters, 20(3):209–212, 2013. 7

[26] Yanyun Qu, Yizi Chen, Jingying Huang, and Yuan Xie. Enhanced pix2pix dehazing network. In CVPR, 2019. 7

[27] J Alex Stark. Adaptive image contrast enhancement using generalizations of histogram equalization. IEEE Transactions on Image Processing, 9(5):889–896, 2000. 2

[28] Ruixing Wang, Qing Zhang, Chi-Wing Fu, Xiaoyong Shen, Wei-Shi Zheng, and Jiaya Jia. Underexposed photo enhancement using deep illumination estimation. In CVPR, 2019. 1, 2, 5, 6, 7, 8

[29] Shuhang Wang, Jin Zheng, Hai-Miao Hu, and Bo Li. Naturalness preserved enhancement algorithm for non-uniform illumination images. IEEE Transactions on Image Processing, 22(9):3538–3548, 2013. 2, 6

[30] Wenguan Wang, Qiuxia Lai, Huazhu Fu, Jianbing Shen, and Haibin Ling. Salient object detection in the deep learning era: An in-depth survey, 2019. 5

[31] Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, and Eero P. Simoncelli. Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4):600–612, 2004. 7

[32] Chen Wei, Wenjing Wang, Wenhan Yang, and Jiaying Liu.

Deep retinex decomposition for low-light enhancement. In BMVC, 2018. 2, 5, 6, 7, 8

[33] Peng Xu. Deep learning for free-hand sketch: A survey, 2020. 5

[34] Shuo Yang, Ping Luo, Chen-Change Loy, and Xiaoou Tang.

Wider face: A face detection benchmark. In CVPR, 2016. 8

[35] Runsheng Yu, Wenyu Liu, Yasen Zhang, Zhi Qu, Deli Zhao, and Bo Zhang. Deepexposure: Learning to expose photos with asynchronously reinforced adversarial learning. In NeurIPS, 2018. 5

[36] Lu Yuan and Jian Sun. Automatic exposure correction of consumer photographs. In ECCV, 2012. 2

[37] Ye Yuan, Wenhan Yang, Wenqi Ren, Jiaying Liu, Walter J Scheirer, and Wang Zhangyang. Ug+ track 2: A collective benchmark effort for evaluating and advancing image understanding in poor visibility environments, 2019. arXiv arXiv:1904.04474. 6, 8

[38] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycleconsistent adversarial networks. In ICCV, 2017. 2