论文阅读EnlightenGAN: Deep Light Enhancement without Paired Supervision

最新推荐文章于 2025-03-03 18:18:25 发布

GracePro

最新推荐文章于 2025-03-03 18:18:25 发布

阅读量2.1w

点赞数 10

分类专栏： CVPR2019论文文章标签： CVPR2019 CV论文阅读 EnlightenGAN

本文链接：https://blog.csdn.net/GracePro/article/details/95656882

版权

CVPR2019论文专栏收录该内容

5 篇文章

订阅专栏

EnlightenGAN: Deep Light Enhancement without Paired Supervision

没有配对监督的深度光增强
作者 Yifan Jiang，Xinyu Gong, Ding Liu, Yu Cheng, Chen Fang, Xiaohui Shen,
Jianchao Yang, Pan Zhou, Zhangyang Wang
代码 https://github.com/yueruchen/EnlightenGAN

Abstract

基于深度学习的方法在图像恢复和增强方面取得了显着的成功，但是当缺乏配对的训练数据时它们仍然具有竞争力吗？作为一个这样的例子，本文探讨了低光图像增强问题，其中在实践中同时拍摄相同视觉场景的低光和普通光照片是极具挑战性的。我们提出了一种高效无监督的生成对抗网络，称为EnlightenGAN，可以在没有低/正常光图像对的情况下进行训练，但证明可以很好地概括各种真实世界的测试图像。我们建议使用从输入本身提取的信息来规范未配对训练，而不是使用真实数据来监督学习，并对低光图像增强问题的一系列创新进行了基准测试，包括全局-局部鉴别器结构，自正规化感知损失融合和注意机制。通过大量实验，我们提出的方法在视觉质量和主观用户研究方面优于各种指标下的近期方法。
由于非配对培训带来了极大的灵活性，EnlightenGAN可以很容易地适应各种领域的真实图像。

1. Introduction

在低光照条件下拍摄的图像对比度低，能见度差，ISO噪声高。这些问题既挑战了喜欢高可视性图像的人类视觉感知，也挑战了大量依赖计算机视觉算法的智能系统，比如全天自动驾驶和生物特征识别[1]。为了缓解这种退化，人们提出了大量的算法，从基于直方图或基于认知的算法[2,3]到基于学习的方法[4,5]。采用深度学习的图像恢复和增强方法主要依赖于合成或捕获的损坏和干净的图像对进行训练，如超分辨率[6]、去噪[7]和去模糊[8]。
然而,成对训练图像的可用性的假设带来了更多的困难,在增强图像更不受控制的场景,如去雾、去雨或光线暗的改进:1)非常困难甚至不切实际的同步捕获损坏和地面实况图像相同的视觉场景(例如,光线和普通光照图像对在同一时间);2)从干净的图像中合成损坏的图像有时会有帮助，但这种合成的结果通常不够逼真，当训练后的模型应用于真实的低光图像时，会产生各种伪影;3)特别对于低光增强问题，在低光图像中可能没有唯一的或定义良好的高光真实图像。例如，任何从黎明到黄昏拍摄的照片都可以被看作是在同一场景拍摄的午夜照片的高亮版本。考虑到上述问题，我们的首要目标是增强低光照片与空间变化的光照条件和过度/不足的曝光伪影，而配对的训练数据是不可用的。
受[9,10]无监督图像到图像的转换启发，我们采用生成对抗网络(GANs)，在不依赖于精确匹配的图像的情况下，在低光和正常光图像空间之间建立非配对映射。这使我们从训练中解放出来，只使用合成数据或在受控设置中捕获的有限的实际成对数据。我们引入了一个轻量级但有效的单路径GAN，命名为GAN，没有使用循环一致性作为之前的工作[11,12,13,14]，因此享受更短的训练时间的优点。
由于缺乏配对的培训数据，我们纳入了一些创新的技术。我们首先提出一种双判别器来平衡全局和局部低光增强。此外，由于缺乏对真实数据的监督，提出了一种自正则化感知损失的方法来约束低光输入图像与增强图像之间的特征距离，该方法在局部和全局上都被采用，并结合对抗性损失对GAN进行训练。我们还提出利用低光输入的光照信息作为各深度特征层次的自正则注意图，对无监督学习进行正则化。由于没有监督的设置，我们表明EnlightenGAN可以非常容易地用于增强不同领域的真实世界的低光图像。
EnlightenGAN的显著创新点：

EnlightenGAN是第一个成功地将非配对训练引入低光图像增强的作品。这种训练策略消除了对成对训练数据的依赖，使我们能够使用来自不同领域的更大种类的图像进行训练。它还避免了以前的工作[15,5,16]隐式依赖的任何特定数据生成协议或成像设备的过度拟合，从而显著改进了现实世界的泛化。
EnlightenGAN通过引入下列两个操作，获得了显著的性能。(i)一个处理输入图像中空间变化光照条件的全局-局部鉴别器结构;(ii)自正则化思想，通过自特征保留损失和自正则注意机制来实现。自正则化对于我们的模型的成功是至关重要的，因为在不配对的情况下，没有强有力的外部监督形式可用。
通过综合实验，将EnlightenGAN与几种先进的方法进行了比较。测量结果包括视觉质量、无参考图像质量评估和人的主观调查。所有的结果都一致认可EnlightenGAN的优越性。此外，与现有的配对训练增强方法相比，EnlightenGAN被证明特别容易和灵活地用于增强不同领域的真实低光图像。

2. Related Works

成对的数据集:现状有几个选项可以收集一对低/正常光线的图像数据集，但不幸的是，没有一个是有效的，也不容易扩展。可以先固定好相机，然后在正常光照条件下减少曝光时间[5]，或者在低光照条件下增加曝光时间[16]。LOL数据集[5]是迄今为止唯一通过改变曝光时间和ISO从真实场景中拍摄的低/正常光线图像对数据集。由于实验设置繁琐，如相机需要固定，物体不能移动等，所以只有500对。此外，它可能仍然偏离自然低/正常光线图像之间的真实映射。特别是在空间变化的光线下，简单地增加/减少曝光时间可能会导致局部过度/过曝。
在高动态测距(HDR)领域，一些工作首先在不同不完美的光照条件下捕捉多个图像，然后将它们对齐并融合成一个高质量的图像[15,17]。然而，它们的设计目的并不是为了对单一的低光图像进行后处理。
传统的方法。低光图像增强作为一种图像处理问题一直受到人们的积极研究，经典的方法有自适应直方图均衡化(AHE)[3]、视神经网络[2]和多尺度视神经网络模型[18]。最近，[19]提出了一种针对非均匀光照图像的增强算法，利用双对数变换在细节和自然之间取得平衡。Fu等人在之前对数变换研究的基础上，提出了加权变分模型[20]，利用施加正则项的观测图像来估计反射率和光照。在[21]中，提出了一种简单而有效的低光图像增强方法(LIME)，首先通过在每个像素的RGB通道中寻找最大值来估计每个像素的光照，然后通过施加一个先验结构来构造光照图。[22]提出了一种基于连续图像序列分解的联合微光图像增强降噪模型。[23]进一步提出了一种鲁棒的视网膜x模型，与传统的视网膜x模型相比，该模型还考虑了噪声映射，从而提高了对伴有强噪声的低光图像的增强性能。
深度学习的方法。现有的深度学习解决方案大多依赖于配对训练，其中大部分微光图像是由正常图像合成的。[4]提出了一种层叠式自动编码器(LL-Net)，在patch级学习联合去噪和低光增强。[5]中的Retinex- net提供了一个端到端框架，将Retinex理论与深度网络相结合。HDR-Net[24]将深度网络与双边网格处理和局部仿射颜色变换的思想结合起来，并结合成对监督。在HDR领域发展了几种多帧低光增强方法，如[15,17,25]。
最近，[16]提出了一种学习在黑暗模型中看东西的方法，取得了令人印象深刻的视觉效果。然而，这种方法除了需要成对的低/常光训练图像外，还直接对原始传感器数据进行操作。此外，通过学习色彩转换、去马赛克和去噪的过程，更注重在低光增强过程中避免放大的伪影，这在设置和目标上都不同于EnlightenGAN。
对抗学习。GANs[26]已被证明在图像合成和翻译方面是成功的。在应用GANs进行图像恢复和增强时，现有的大部分工作也使用成对的训练数据，如超分辨率[27]、单幅图像去模糊[28]、去雨[29]和去雾[30]。提出了几种无监督广义网络，利用对抗性学习来学习域间映射，并被用于许多其他任务。(9、10)通过了一项two-way GAN翻译两个不同域之间通过cycle-consistent损失少量的未配对数据最新作品跟着他们的方法和应用未配对训练cycle-consistency几个低级视觉任务,例如去雾、去雨、超分辨率和移动照片增强(31、32、33、34)。与之不同的是，EnlightenGAN指的是不配对的训练，但有一个轻量级的单路径GAN结构(即，没有周期性)，稳定，易于训练。

3. Method

如图2所示，我们所提出的方法采用注意引导的U-Net作为生c成器，利用双判别器对全局和局部信息进行引导。我们也使用自特征保留损失来指导训练过程和维护纹理和结构。在本节中，我们首先介绍两个重要的构建块，即、全局-局部判别器和自特征保持器的丢失，然后对整个网络进行详细的分析。详细的网络架构见补充资料。
图2:生成器的整体架构。

3.1. Global-Local Discriminators

我们采用对抗性损失来最小化实际光分布和输出正态光分布之间的距离。然而，我们观察到，一个图像级的香草鉴别器往往不能处理空间变化的光图像;如果输入图像有局部区域需要不同于其他部分进行增强，例如在整体黑暗背景中有一个小的亮区域，那么单独使用全局图像识别器往往无法提供所需的自适应能力。
为了自适应地增强局部区域，在提高全局光照的同时，我们提出了一种新的全局-局部鉴别器结构，该结构使用PatchGAN进行真假鉴别。除了图像级全局鉴别器，我们还添加了一个局部鉴别器，通过从输出和真实的正常光照图像中随机裁剪局部小块，并学习区分它们是真实的(与真实图像)还是虚假的(与增强的输出)。这种全局-局部结构保证了增强图像的所有局部区域看起来都像真实的自然光，这对于避免局部过曝或低曝至关重要，我们的实验稍后将揭示这一点。
此外，对于全局判别器，我们利用最近提出的相对论判别器结构[35]估计真实数据比虚假数据更真实的概率，并指导生成器合成比真实图像更真实的伪图像。相对论判别器的标准函数是：
在这里插入图片描述
其中C表示判别器网络， $x_r$ 和 $x_f$ 分别表示真实数据和虚假数据的分布， $\sigma$ 表示sigmoid激活函数。我们稍微修改了相对论判别器，用最小二乘GAN(LSGAN)损失代替了sigmoid函数最后全局判别器D和生成器G的损失函数为：
在这里插入图片描述
对于局部判别器，我们每次从输出图像和真实图像中随机裁剪5个patch。这里我们采用原LSGAN作为对抗性损失，如下：

3.2. Self Feature reserving Loss

为了限制感知相似性，Johnson等人[37]提出了感知损失的概念，采用一种预训练的VGG对图像之间的特征空间距离进行建模，这种方法被广泛应用于许多低层次的视觉任务中[27,28]。通常的做法是在输出图像及其真实图像之间限制提取的特征距离。
在我们的非配对设置中，我们建议改为限制输入的低光与其增强的正常光输出之间的VGG特征距离。这是基于我们的经验观察，当我们操纵输入像素强度范围时，VGG模型的分类结果不是很敏感，这与最近另一项研究[38]的结果一致。我们称其为自特征保留损失，是为了强调其自正则化的实用性，使图像内容特征在增强前后保持不变。这与(成对的)图像恢复中感知缺失的典型用法不同，也是由我们的非成对设置激发的。具体地说，自特征保留损失 $L_{SFP}$ 定义为:
在这里插入图片描述
$I^L$ 表示输入的低光图像， $G(I^L)$ 表示生成器的增强输出。 $\phi_{i,j}$ 表示在ImageNet上预先训练的VGG-16模型中提取的特征图， $i$ 表会第 $i$ 个最大池化， $j$ 表示第 $i$ 个最大池化之后的第 $j$ 个卷积层。 $W_{i,j}$ 和 $H_{i,j}$ 是提取的特征图的尺寸大小。默认情况下，我们选择 $i = 5, j = 1$ .
对于我们的局部判别器，从输入和输出图像中裁剪出的局部小块也通过类似定义的自特征保留损失 $L^{Local}_{SFP}$ 进行正则化。此外，我们在VGG特征映射后添加了一个实例归一化层，然后再将其加入到 $L_{SFP}$ 和 $L^{Local}_{SFP}$ 中，以稳定训练。因此，训练EnlightenGAN的总体损失函数为:
在这里插入图片描述

3.3. U-Net Generator Guided with SelfRegularized Attention

U-Net[40]在语义分割、图像恢复和增强[41]方面取得了巨大的成功。U-Net通过从不同的深度层中提取多级特征，保持了丰富的纹理信息，并利用多尺度上下文信息合成了高质量的图像。我们采用U-Net网络作为生成器的骨干。
我们进一步提出了一个易于使用的注意机制的U-Net生成器。直观地说，在空间变化光照条件下的低光图像中，我们总是希望对暗区域的增强大于对亮区域的增强，这样输出的图像既不会过度曝光也不会低曝。我们将输入RGB图像的光照通道 $I$ 标准化为[0,1]，然后使用 $1 - I$ (元素差异)作为我们的自正则注意图。然后，我们调整注意图的大小以适应每个特征图，并将其与所有中间特征图以及输出图像相乘。我们强调，我们的注意力图也是一种自我规范的形式，而不是在监督下学习。尽管其简单，注意力引导显示始终如一地改善视觉质量。。
我们的注意力引导的U-Net生成器是由8个卷积块实现的。每个块由两个3*3个卷积层组成，然后是LeakyReLu和一个batch normalization层[42]。在上采样阶段，我们将标准反卷积层替换为一个双线性上采样层和一个卷积层，以减轻棋盘图的伪影。EnlightenGAN最终的建筑如图2所示。图2:gan的总体架构。

4. Experiments

4.1. Dataset and Implementation Details

因为EnlightenGAN具有独特的能力，可以用不配对的低光、常光图像进行训练，所以我们能够收集到更大尺度的unpair训练集，涵盖了不同的图像质量和内容。我们从[43,5]和[15,25]中发布的几个数据集中收集了914张低光和1016张普通光图像，而不需要保存任何一对。手动检查选择，去除中等亮度图像。所有这些照片都被转换成PNG格式，并调整到600*400像素。对于测试图像，我们选择了之前作品中使用的标准图像(NPE [19]， LIME [21]， MEF [44]， DICM [45]， VV,等)。
EnlightenGAN先从头开始训练100次迭代，学习率为1e-4，然后再训练100次迭代，学习率线性衰减为0。我们使用Adam优化器，批大小设置为32。由于单路径GAN的轻量级设计，无需使用循环一致性，因此训练时间比基于循环的方法短得多。整个培训过程需要3个小时的Nvidia 1080Ti gpu。

4.2. Ablation Study

为了证明第3节中提出的每个组件的有效性，我们进行了几个消融实验。具体来说，我们设计了两个实验，分别去掉了局部判别器和注意机构的分量。如图3所示，第一行是输入图像。第二行是由EnlightenGAN制作的图像，只有全局判别器来区分低光和正常光的图像。第三行是由EnlightenGAN产生的结果，它没有采用自我正则化的注意机制，而是使用U-Net作为生成器。最后一行是我们提出的EnlightenGAN版本。
在这里插入图片描述
第二行和第三行增强后的结果往往包含了严重色彩失真或曝光不足的局部区域，即图3(a)中建筑上方的天空，图3(b)中屋顶区域，左侧开花图3©，图3(d)中树与灌木的边界
在图3(e)t恤。相比之下，完整的EnlightenGAN的结果包含了逼真的色彩，从而更加赏心悦目，验证了全局-局部判别器设计和自正则注意机制的有效性。

4.3. Comparison with State-of-the-Arts

在本节中，我们将EnlightenGAN的表现与目前最先进的方法进行比较。我们进行了一系列的实验，包括视觉质量比较、人的主观评价和无参考图像质量评估(IQA)。

4.3.1 Visual Quality Comparison

我们首先将EnlightenGAN的视觉质量与最近的几种竞争方法进行比较。结果如图4所示，第一列为原始的低光图像，第二至第五列为增强后的图像:使用我们的unpaired训练集训练的香草CycleGAN[9]、RetinexNet[5]、SRIE[20]、LIME[21]和NPE[19]。最后一栏是EnlightenGAN的研究结果。
接下来，我们将放大包围框中的一些细节。LIME很容易导致过度曝光的伪影，这使得结果失真，并且由于一些信息的缺失而变得耀眼。SRIE和NPE的结果与其他方法相比普遍较差。CycleGAN和RetinexNet在亮度和自然度方面产生不满意的视觉效果。相比之下，EnlightenGAN不仅成功地学会了增强暗区，还保留了纹理细节，避免了过度曝光的伪影。补充材料显示了更多的结果。
与其他先进的方法进行比较。

4.3.2 Human Subjective Evaluation

我们进行了人类主观研究，比较EnlightenGAN和其他方法的表现。我们从测试集中随机选取了23幅图像，每幅图像首先用5种方法进行增强(LIME、RetinexNet、NPE、SRIE和gan)。然后，我们要求9名受试者以成对的方式独立比较这5种输出。具体来说，每次一个人被展示时，都会从五个输出中随机抽取两幅图像，并被要求评估哪幅图像的质量更好。指示受试者考虑以下问题:1)图像是否含有可见噪声;2)图像是否含有过量或过曝的伪影;3)图像是否显示不真实的颜色或纹理失真。接下来，我们拟合了一个Bradley-Terry模型[46]来估计主观评分的数值，这样就可以使用与之前的工作[47]完全相同的例程对五种方法进行排序。因此，每个方法在该图像上都被赋以1-5的排名。我们对所有23幅图像重复上述操作。
图5显示了五个直方图，每个直方图描述了一个方法在23幅图像上接收到的秩分布。例如，EnlightGAN在23张图片中有10张排名第一(主观评分最高)，8张排名第二，5张排名第三。通过对比这五幅直方图，我们可以清楚地看到，EnlightGAN得到了人类被试总体上最喜欢的结果，在23幅图像中，EnlightGAN的平均排名为1.78。RetinexNet和LIME没有很好地得分，因为导致许多过度暴露，有时放大噪音。
结果采用五种方法对人的主观评价。

4.3.3 No-Referenced Image Quality Assessment

我们采用自然图像质量评估器(NIQE)[48]进行定量比较，这是一种著名的无参考图像质量评估工具，用于评估无地面真实感的真实图像恢复。表1报告了以前作品(MEF、NPE、LIME、VV和DICM)使用的五个公共可用图像集上的NIQE结果:较低的NIQE值表示更好的视觉质量。EnlightGAN在五局中赢了三局，并且在总体平均NIQE方面是最好的。这进一步证明EnlightGAN在产生高质量的视觉效果方面优于目前最先进的方法。
在这里插入图片描述

4.4. Adaptation on Real-World Images

区域自适应是实现现实世界通用图像增强不可缺少的因素。EnlightenGAN的unpair training strategy让我们可以直接学习如何增强来自各个领域的真实低光图像，这些领域没有成对的normal-light training data，甚至没有来自同一个领域的normal-light data可用。我们使用来自真实世界驾驶数据集伯克利深度驾驶(BBD-100k)[1]的低光图像进行实验，以展示EnlightenGAN在实践中的独特优势。
我们从BBD-100k集合中选取950张夜间照片(平均像素强度值小于45)作为低光训练图像，加上50张低光图像进行hold-out测试。这些低光图像存在严重的伪影和高ISO噪声。然后我们比较了在不同的标准光图像集上训练的两个EnlightenGAN模型，包括:1)第4.1节所述的未经任何BBD-100k调整的预先训练的启示模型;2)EnlightenGAN-N: EnlightenGAN的领域适配版本，使用BBD-100k数据集中的BBD-100k低光图像进行训练，而normal-light图像仍然是我们4.1节中未配对数据集的高质量图像。我们还包括一个传统的方法，自适应直方图均衡化(AHE)，和一个预先训练的石灰模型进行比较。
如图6所示，LIME的结果存在严重的噪声放大和过度曝光伪影，而AHE没有提高足够的亮度。最初的EnlightenGAN也导致了在这个看不见的图像领域的明显的人工制品。相比之下，EnlightenGAN-N产生了最令人愉悦的视觉效果，在亮度和伪影/噪声抑制之间取得了令人印象深刻的平衡。由于没有配对训练，EnlightenGAN可以很容易地适应到EnlightenGAN-N中，而不需要在新领域中使用任何监督/配对的数据，这极大地促进了它在现实世界中的推广。
在这里插入图片描述

4.5. PreProcessing for Improving Classification

图像增强作为改善后续高级视觉任务的预处理，近年来受到越来越多的关注[28,49,50]，并进行了一些基准测试工作[47,51,52]。我们研究了光增强对极暗(ExDark)数据集[53]的影响，该数据集是专门为低光图像识别而构建的。光增强后的分类结果可以作为语义信息保存的间接措施，如[28,47]所示。
ExDark数据集由7363张低光图像组成，其中训练集图像3000张，验证集图像1800张，测试集图像2563张，注释为12个对象类。我们只使用它的测试集，使用我们的预处理EnlightenGAN作为预处理步骤，然后通过另一个在mageNet预训练的ResNet-50分类器。既不进行领域适应，也不进行联合培训。高级任务性能作为增强结果的固定语义感知度量。
在低光测试集中，使用EnlightenGAN作为预处理，提高了分类精度，从22.02% (top-1)和39.46% (top-5)提高到23.94% (top-1)和40.92% (top-5)。这提供了一个侧面的证据，除了产生视觉上令人愉快的结果以外，EnlightenGAN还保留了语义细节。我们还用LIME和AHE进行了实验。LIME将准确率提高到23.32% (top-1)和40.60% (top-5)，而AHE提高到23.04% (top-1)和40.37% (top-5)。

5. Conclusion

本文提出了一种新颖、灵活的无监督框架来解决低光增强问题。所提出的EnlightenGAN在没有配对训练数据的情况下，能够很好地进行操作和推广。在各种低光数据集上的实验结果表明，我们的方法在主观和客观指标下都优于多种最先进的方法。此外，我们证明EnlightenGAN可以很容易地适应真实的低噪声微光图像，并产生视觉上令人愉快的增强图像。我们未来的工作将探索如何在一个统一的模型中控制和调整基于用户输入的光增强级别。由于光增强的复杂性，我们也希望将算法与传感器的创新相结合。