论文翻译1----EnlightenGAN: Deep Light Enhancement Without Paired Supervision【EnlightenGAN：无需成对监督的深度光增强】

迷你G

已于 2022-08-21 10:03:56 修改

阅读量1.2k

点赞数 3

分类专栏：论文学习文章标签：深度学习人工智能计算机视觉神经网络

于 2022-08-15 14:33:03 首次发布

原文链接：https://arxiv.org/abs/1906.06972

版权

论文学习专栏收录该内容

5 篇文章

订阅专栏

2021 [J] IEEE TRANSACTIONS ON IMAGE PROCESSING (A级)

摘要：

基于深度学习的方法在图像恢复和增强方面取得了显著的成功，但在缺乏成对训练数据的情况下，它们是否仍具有竞争力？作为一个这样的例子，本文探讨了弱光图像增强问题，在实践中，同时拍摄同一视觉场景的弱光和普通光照片是极具挑战性的。我们提出了一种高效的无监督生成对抗网络，称为EnlightenGAN，它可以在没有低/正常光图像对的情况下进行训练，但事实证明它在各种真实测试图像上具有很好的通用性。我们建议使用从输入本身提取的信息对未配对训练进行正则化，并对低光图像增强问题的一系列创新进行基准测试，包括全局-局部鉴别器结构、自正则感知损失融合和注意机制，而不是使用地面真值数据监督学习。通过大量实验，我们提出的方法在视觉质量和主观用户研究方面在各种指标下都优于最近的方法。由于无配对训练带来了极大的灵活性，DiightGan被证明能够轻松适应不同领域的真实图像增强。我们的代码和预先训练的模型可在以下网址获得：https:\/\/github.com\/VITA Group\/indightgan。

索引项：弱光增强、生成性对抗网络、无监督学习。

1.介绍

在弱光条件下拍摄的图像存在低对比度、低可见性和高ISO噪声。这些问题既挑战了偏好高可见度图像的人类视觉感知，也挑战了许多依赖计算机视觉算法的智能系统，如全天自动驾驶和生物识别[1]。为了缓解退化，有大量算法已经被提出，从直方图或基于认知的方法[2]、[3]到基于学习的方法[4]、[5]。使用深度学习的最先进的图像恢复和增强方法严重依赖于对合成或捕获的受损和干净图像进行训练，如超分辨率[6]、去噪[7]和去模糊[8]。

然而，成对训练图像的可用性假设在增强来自更不受控制场景的图像时带来了更多困难，例如去叠，去噪或弱光增强：1）同时捕获同一视觉场景的受损和地面真实图像（例如，同时捕获弱光和正常光图像对）非常困难，甚至不切实际；2）从干净的图像合成损坏的图像有时会有所帮助，但这种合成结果通常不够逼真，当训练模型应用于真实世界的低光图像时，会导致各种伪影；3）特别是对于弱光增强问题，在给定弱光图像的情况下，可能没有唯一或明确定义的强光背景真值。例如，从黎明到黄昏拍摄的任何照片都可以被视为午夜在同一场景拍摄的照片的高亮度版本。考虑到上述问题，我们的首要目标是当成对的训练数据不可用时，增强具有空间变化的光照条件和曝光过度/不足伪影的低光照照片。
受[9]、[10]关于无监督图像到图像转换的启发，我们采用生成对抗网络（GAN）在低光图像空间和正常光图像空间之间构建非成对映射，而不依赖精确成对的图像。这将我们从只使用合成数据或在受控环境中捕获的有限真实配对数据的训练中解放出来。我们引入了一种轻量级但有效的单路径GAN，名为EnlightenGAN，没有像以前的工作[11]–[14]那样使用循环一致性，因此具有训练时间更短的优点。
由于缺乏配对训练数据，我们采用了许多创新技术。我们首先提出了一种双鉴别器来平衡全局和局部弱光增强。此外，由于缺乏地面实况监督，我们提出了一种自正则化感知损失来约束弱光输入图像与其增强版本之间的特征差距，该特征差距随后与对抗损失一起被局部和全局采用以进行训练。我们还建议利用弱光输入的光照信息作为每个深度特征层次的自正则注意图来正则化无监督学习。多亏了无监督设置，我们证明了DiightGan可以非常容易地适应于增强来自不同领域的真实低光图像。

我们会重点介绍了Diightgan的显著创新：

• EnlightenGAN是第一部成功将非成对训练引入微光图像增强的作品。这种训练策略消除了对成对训练数据的依赖，使我们能够使用来自不同领域的更大种类的图像进行训练。它还避免了过度拟合先前工作[5]、[15]、[16]隐含依赖的任何特定数据生成协议或成像设备，从而显著提高了真实世界的通用性。

• EnlightenGAN通过施加（i）全局-局部鉴别器结构来处理输入图像中空间变化的光照条件，获得了显著的性能；（ii）自正则化的思想，通过自特征保持损失和自正则化注意机制实现。自我规范化对于我们的模型成功至关重要，因为在不成对的环境中，没有强有力的外部监督。

• 通过综合实验，将EnlightenGAN与几种最先进的方法进行比较。结果是根据视觉质量、无参考图像质量评估和人类主观调查来衡量的。所有的结果都一致认可了启蒙运动的优越性。此外，与现有的成对训练增强方法相比，EnlightenGAN被证明特别容易且灵活地适应于增强来自不同领域的真实世界低光图像。

2.相关工作

A. 配对数据集：现状

有几种方法可以收集低/正常光照图像的配对数据集，但不幸的是，没有一种方法是有效的，也不容易扩展。可以固定相机，然后在正常光照条件下减少曝光时间[5]，或在低光照条件中增加曝光时间[16]。LOL数据集[5]是迄今为止唯一通过改变曝光时间和ISO从真实场景中获取的低/正常光图像对的数据集。由于繁琐的实验设置，例如，摄像机需要固定，物体无法移动等，它仅由500对组成。此外，它可能仍然偏离自然低光/正常光图像之间的真实映射。特别是在空间变化的光线下，简单地增加/减少曝光时间可能会导致局部曝光过度/不足伪影。
在高动态测距（HDR）领域，一些工作人员首先在不同的不完美光照条件下捕获多幅图像，然后将它们对齐并融合为一幅高质量图像[15]、[17]。然而，它们的设计目的不是仅对一个单一的微光图像进行后处理。

B. 传统方法

低光照图像--长期以来，图像增强一直作为一个图像处理问题被积极研究，使用了一些经典方法，如自适应直方图均衡化（AHE）[3]、Retinex[2]和多尺度Retinex模型[18]。最近，[19]提出了一种非均匀照明图像的增强算法，利用双对数变换在细节和自然度之间取得平衡。基于对数变换的先前研究，Fu等人提出了一种加权变分模型[20]，用施加的正则化项估计观测图像的反射率和照度。在[21]中，提出了一种简单但有效的微光图像增强（LIME），其中每个像素的照度首先通过在其RGB通道中找到最大值来估计，然后通过施加结构先验来构建照度图。参考文献[22]介绍了通过在连续图像序列中进行分解的联合微光图像增强和去噪模型。参考文献[23]进一步提出了一种稳健的Retinex模型，与传统的Retines模型相比，该模型还考虑了噪声映射，以提高伴随着强噪声的弱光图像的增强性能

C. 深度学习方法
现有的深度学习解决方案大多依赖于配对训练，其中大多数低光图像是从正常图像合成的。参考文献[4]提出了一种堆叠式自动编码器（LL-Net），用于在贴片级学习联合去噪和弱光增强。[5]中的Retinex网络提供了一个端到端框架，将Retinex理论和深度网络结合起来。HDR Net[24]将深度网络与双边网格处理和局部仿射颜色变换的思想结合在一起，并进行两两监督。在HDR领域开发了一些多帧弱光增强方法，如[15]、[17]、[25]。
最近，[16]提出了一种“learning to see in the dark”的模型，该模型获得了令人印象深刻的视觉效果。然而，除了需要成对的低/正常光训练图像外，该方法还直接对原始传感器数据进行操作。此外，它更侧重于通过学习颜色变换、去马赛克和去噪的管道，避免在弱光增强期间出现放大的伪影，这在设置和目标方面与EnlightenGAN不同。

D. 对抗式学习

GANs[26]、[27]已经证明在图像合成和翻译方面是成功的。当将GANs应用于图像恢复和增强时，大多数现有作品也使用配对训练数据，如超分辨率[28]、艺术风格转换和图像编辑[29]、[30]、去雾[31]和去噪[32]。提出了几种无监督的GAN来使用对抗式学习学习域间映射，并用于许多其他任务。参考文献[9]、[10]采用了双向GAN，通过使用具有未配对数据的周期一致性丢失，在两个不同的域之间进行转换。一些最新的工作遵循了他们的方法，并将具有周期一致性的未配对训练应用于数项低水平视觉任务，例如去杂、去雾、超分辨率和移动照片增强[33]–[36]。与之不同的是，启蒙训练指的是非配对训练，但具有轻量级的单程GAN结构（即，无循环一致性），稳定且易于训练。

3.方法

如图2所示，我们提出的方法采用注意力引导的U网络作为生成器，并使用双鉴别器来引导全局和局部信息。我们还使用自特征保留损失来指导训练过程并维护纹理和结构。在本节中，我们首先介绍两个重要的构建块，即全局-局部鉴别器和自特征保持损失，然后详细介绍整个网络。详细的网络架构见补充资料。

【图2.EnlightenGAN的总体架构。在生成器中，每个卷积块由两个3×3卷积层组成，然后进行批量归一化和LeakyRelu。每个注意力模块的特征图与（调整大小的）注意力图相乘。】

A. 全局和局部鉴别器

我们采用对抗损失最小化真实和输出正态光分布之间的距离。然而，我们观察到，图像级鉴别器在空间变化的光图像上经常失败；如果输入图像具有需要与其他部分不同地增强的局部区域，例如，整体暗背景中的小亮区域，则仅全局图像鉴别器通常无法提供所需的自适应性。
受先前工作[37]的启发，为了在全局改善光线的同时自适应增强局部区域，我们提出了一种新的全局-局部鉴别器结构，使用PatchGAN进行真/假鉴别。除了图像级全局鉴别器外，我们还添加了一个局部鉴别器，方法是从输出和真实正常光图像中随机裁剪局部面片，并学习区分它们是真实（来自真实图像）还是虚假（来自增强输出）。这种全局局部结构确保了增强图像的所有局部面片看起来都像真实的普通光面片，这对于避免局部过度曝光或曝光不足至关重要，我们的实验稍后将揭示这一点。

此外，对于全局鉴别器，我们利用最近提出的相对论鉴别器结构[38]，该结构估计真实数据比假数据更真实的概率，并指导生成器合成比真实图像更真实的假图像。相对论鉴别器的标准函数是

其中C表示鉴别器网络，xr和xf从实分布和假分布中采样，σ表示S形函数。我们稍微修改了相对论鉴别器，以least-square GAN（LSGAN）[39]损耗代替S形函数。最后，全局鉴别器D和发生器G的损失函数为：

对于局部鉴别器，我们每次从输出图像和真实图像中随机裁剪5个面片。在此，我们采用原始LSGAN作为对抗性损失，如下所示：

B. 自特征保持损失

为了限制感知相似性，Johnson等人[40]提出了感知损失，采用预先训练的VGG对图像之间的特征空间距离进行建模，这被广泛用于许多低级视觉任务[28]、[41]。通常的做法是限制输出图像与其地面真值之间的提取特征距离。

在我们的非配对设置中，我们建议改为限制输入弱光与其增强正常光输出之间的VGG特征距离。这是基于我们的经验观察，即当我们操纵输入像素强度范围时，VGG模型的分类结果不太敏感，这与另一项最新研究[42]一致。我们称之为自特征保留损失，以强调其自正则化效用，从而在增强之前和之后将图像内容特征保留到自身。这与（成对）图像恢复中感知损失的典型用法不同，也是由我们的非成对设置引起的。具体而言，自特征保持损失定义为：

其中I L表示输入的微光图像，G（I L）表示发生器的增强输出。φi，j表示从在ImageNet上预训练的VGG-16模型中提取的特征图。i表示其第i个最大池，j表示其第j个最大池层之后的第j个卷积层。Wi、j和Hi、j是提取的特征图的维度。默认情况下，我们选择i=5，j=1。

对于我们的局部鉴别器，来自输入和输出图像的裁剪局部面片也通过类似定义的自特征保留损失进行正则化。并且，我们在VGG特征映射之后添加实例归一化层[43]，然后再输入和，以稳定训练。因此，用于训练的总损失函数被写为：

C. 自正则注意引导的U网生成器

U-Net[44]在语义分割、图像恢复和增强[45]方面取得了巨大成功。通过从不同深度层提取多级特征，U-Net保留了丰富的纹理信息，并使用多尺度上下文信息合成高质量图像。我们采用U-Net作为发电机主干网。

我们进一步为U-Net生成器提出了一种易于使用的注意机制。直观地说，在光照空间变化的低光图像中，我们总是希望增强暗区域而不是亮区域，这样输出图像既不会过度曝光，也不会曝光不足。我们获取输入RGB图像的照明通道I，将其归一化为[0,1]，然后使用1−I（元素差异）作为我们的自正则注意图。然后，我们调整注意力图的大小以适合每个特征图，并将其与所有中间特征图以及输出图像相乘。我们强调，我们的注意力图也是一种自我调节的形式，而不是在监督下学习。尽管它很简单，但注意力引导可以持续提高视觉质量。

我们的注意力引导U网络生成器由8个卷积块实现。每个块由两个3×3卷积层组成，然后是LeakyReLu和一个批量归一化层[46]。在上采样阶段，我们用一个双线性上采样层加一个卷积层替换标准反卷积层，以减轻棋盘伪影。图2左侧显示了EnlightenGAN的最终架构。详细配置可在补充材料中找到。

4.实验

A. 数据集和实现细节

由于EnlightenGAN具有使用未配对的低光/正常光图像进行训练的独特能力，我们能够收集更大规模的未配对训练集，涵盖各种图像质量和内容。我们从[5]、[47]和[15]、[25]中发布的多个数据集中组合了914幅弱光图像和1016幅普通光图像，无需保留任何一对。执行手动检查和选择以移除中等亮度的图像。所有这些照片都转换为PNG格式，并调整大小为600×400像素。对于测试图像，我们选择了先前工作中使用的标准图像（NPE[19]、LIME[21]、MEF[48]、DICM[49]、VV等）。

EnlightenGAN首先以1e-4的学习率从头开始训练100个阶段，然后再训练100个周期，学习率线性衰减为0。我们使用Adam优化器，批量大小设置为32。由于单路径GAN的轻量级设计，不使用循环一致性，训练时间比基于循环的方法短得多。整个培训过程在3个Nvidia 1080Ti GPU上耗时3小时。

B. 烧蚀研究

为了证明第三节中提出的每个组件的有效性，我们进行了几次烧蚀实验。具体来说，我们分别通过去除局部鉴别器和注意机制的成分设计了两个实验。如图3所示，第一行显示输入图像。第二行显示了输入图像的注意力图，我们可以很容易地观察到，注意力图为算法提供了一个很好的指导，通过该算法，区域应该得到更多的增强，而其他区域应该得到更少的增强。第三行显示了由EnlightenGAN生成的图像，该图像仅使用全局鉴别器来区分弱光图像和正常光图像。第四行是EnlightenGAN产生的结果，它不采用自正则注意机制，而是使用U-Net作为生成器。最后一行是由我们提出的拟议版本生成的。

【图3.GaN烧蚀研究的视觉对比。1∼5行分别显示低光图像输入、输入的注意力图、来自仅具有全局鉴别器的DiightGan的结果、来自不具有自正则注意机制的EnlightenGAN的结论以及来自最终版本的EnlightenGAN的成果。第3行和第4行中的图像存在严重的颜色失真或不一致，边界框会突出显示。拟议的最终版本能够缓解上述问题，并获得最令人愉悦的视觉效果。】

第三行和第四行中的增强结果往往包含严重颜色失真或曝光不足的局部区域，即图3（a）中的建筑物上方的天空、图3（b）中的屋顶区域、图3（c）中的左侧花朵、图3.（d）中的树木和灌木边界以及图3（e）中的T恤。相比之下，全视觉识别的结果包含真实的颜色，因此视觉上更令人愉悦，这验证了全局-局部鉴别器设计和自我调节注意机制的有效性。补充资料中有更多图像。

C. 与现有技术的比较
在本节中，我们将EnlightenGAN的性能与当前最先进的方法进行比较。我们进行了一系列实验，包括视觉质量比较、人类主观评价和无参考图像质量评估（IQA），这些实验将在下面详细介绍。

1）视觉质量比较：我们首先将EnlightenGAN的视觉质量与几种最近的竞争方法进行比较。结果如图4所示，其中第一列显示原始低光图像，第二至第五列是通过以下方式增强的图像：使用我们的未配对训练集训练的香草CycleGAN[9]、RetinexNet[5]、SRIE[20]、LIME[21]、NPE[19]、LLNet[4]和CycleGAN[9]。最后一列显示了EnlightenGAN产生的结果。

【图4.与其他先进方法的比较。放大区域用于说明视觉差异。从上到下列出了三个示例。第一个例子：EnlightenGAN成功地抑制了黑色天空中的噪音，并生成了黄色墙壁的最佳可见细节。第二个例子：NPE和SRIE未能增强背景细节。LIME会导致女性面部过度暴露。LLNet会产生严重的颜色失真。然而，EnlightenGAN不仅恢复了背景细节，而且避免了过度曝光伪影，明显优于其他方法。第三个例子：在避免汽车和云中的过度曝光伪影的同时，EnlightenGAN产生了令人愉悦的视觉效果。其他先进方法要么没有充分增强暗细节，要么产生过度曝光伪影。】

接下来，我们放大边界框中的一些细节。石灰很容易导致过度曝光的伪影，这会使结果失真和眩目，并丢失一些信息。SRIE和NPE的结果通常比其他结果更暗。CycleGAN和RetinexNet在亮度和自然度方面产生了不令人满意的视觉效果。相比之下，EnlightenGAN不仅成功地学会了增强暗区，还保留了纹理细节，避免了过度曝光伪影。

2）无参考图像质量评估：我们采用自然图像质量评估器（NIQE）[50]，这是一种著名的无参考图像品质评估，用于评估无地面真实度的真实图像恢复，以提供定量比较。表一中报告了先前作品（MEF、NPE、LIME、VV和DICM）使用的五种公开可用图像集的NIQE结果：NIQE值越低，视觉质量越好。EnlightenGAN五局三胜，在整体平均NIQE方面是最好的。这进一步证实了在生成高质量的视觉结果方面，EnlightenGAN优于当前最先进的方法。

3）人的主观评价：我们进行了人的主观研究，以比较EnlightenGAN和其他方法的性能。我们从测试集中随机选择23幅图像。对于每个图像，首先通过五种方法（LIME、RetinexNet、NPE、SRIE和DEVILLIGAN）对其进行增强。然后，我们要求9名受试者以成对的方式独立比较五种输出。具体地说，每次显示一个人类受试者，从五个输出中随机抽取一对图像，并要求其评估哪一个图像质量更好。指示受试者考虑：1）图像是否包含可见噪声；2）图像是否包含曝光过度或曝光不足伪影；以及3）图像是否显示非真实的颜色或纹理失真。接下来，我们拟合Bradley-Terry模型[51]来估计数字主观得分，以便使用与先前工作[52]中描述的完全相同的例程对五种方法进行排名。因此，每个方法在该图像上都被分配了秩1-5。我们对所有23张图像重复上述操作。

【图5.人类主观评价中五种方法的结果。在每个直方图中，x轴表示排名指数（1∼ 5、1表示最高），y轴表示每个排名索引中的图像数量。Diightgan以最小的平均排名值生成排名最高的图像并获得最佳性能。】
图5显示了五个直方图，每个直方图描述了方法在23个图像上接收的秩分布。例如，EnlightGAN在23张图像中的10张中排名第一（即主观得分最高），在8张图像中排名第二，在5张图像中名列第三。通过比较这五个直方图，可以清楚地看出，EnlightGAN产生了人类受试者最喜欢的整体结果，在23幅图像中的平均排名为1.78。RetinexNet和LIME的得分不高，因为它们会导致多次过度曝光，有时还会放大噪音。

D. 基于真实世界图像的自适应

域自适应是真实世界通用图像增强的一个不可或缺的因素。EnlightGAN的未配对训练策略允许我们直接学习增强来自不同领域的真实低光图像，其中没有成对的正常光训练数据，甚至没有来自同一领域的正常光数据可用。我们使用真实驾驶数据集Berkeley Deep driving（BBD-100k）[1]中的低光图像进行实验，以在实践中展示启蒙运动的这一独特优势。

我们从BBD-100k集合中选取950张夜间照片（通过小于45的平均像素强度值选择）作为低光训练图像，再加上50张低光图像用于保持测试。这些低光图像遭受严重的伪影和高ISO噪声。然后，我们比较了在不同正常光图像集上训练的两种启蒙GaN模型，包括：1）第IV-A节中描述的预训练启蒙GaN模式，没有对BBD-100k进行任何自适应；

2） EnlightGAN-N：EnlightGAN的一个域适配版本，使用BBD-100k数据集中的BBD-100 K低光图像进行训练，而正常光图像仍然是第IV-a节中我们未配对数据集中的高质量图像。我们还包括一种传统的方法，自适应直方图均衡化（AHE），一种用于比较的预训练石灰模型，以及一种无监督方法CycleGAN

如图6所示，来自LIME的结果遭受严重的噪声放大和过度曝光伪影，而AHE没有充分增强亮度。无监督方法CycleGAN由于其不稳定性而产生非常低的质量。原始图像也会在这个看不见的图像域上产生明显的伪影。相比之下，EnlightGAN-N产生了最令人愉悦的视觉效果，在亮度和伪影/噪声抑制之间达到了令人印象深刻的平衡。由于采用了非配对训练，EnlightGAN-N可以很容易地适应EnlightGAN-N，而无需在新域中使用任何监督\配对数据，这极大地促进了其现实世界的推广。

【图6.BBD-100k数据集结果的视觉比较[1]。EnlightGAN-N是EnlightGAN的域适配版本，可在抑制噪声的情况下产生最视觉愉悦的结果。】

E. 用于改进分类的预处理
图像增强作为改善后续高级视觉任务的预处理，最近受到了越来越多的关注[41]、[53]–[55]，并进行了大量基准测试[52]、[56]–[58]。我们研究了光增强对极暗（ExDark）数据集[59]的影响，该数据集专门为弱光图像识别任务而构建。如[41]、[52]所述，光增强后的分类结果可以作为语义信息保存的间接度量。
ExDark数据集由7363幅弱光图像组成，包括训练集中的3000幅图像、验证集中的1800幅图像和测试集中的2563幅图像，标注为12个对象类。我们只使用它的测试集，将预训练的EnlightGAN作为预处理步骤，然后通过另一个ImageNet预训练的ResNet-50分类器。既不执行域自适应也不执行联合训练。高级任务性能用作增强结果的固定语义感知度量。
在弱光测试集中，使用EnlightGAN作为预处理将分类精度从22.02%（top-1）和39.46%（top-5）提高到增强后的23.94%（top-1）和40.92%（top-5）。这提供了一个侧面的证据，证明除了产生视觉上令人愉悦的结果外，EnlightGAN还保留了语义细节。我们还使用石灰和AHE进行了实验。莱姆将精度提高到23.32%（top-1）和40.60%（top-5），而AHE则分别达到23.04%（top-1）和30.37%（top-5）。

5.结论

在本文中，我们使用一种新颖灵活的无监督框架来解决弱光增强问题。在没有任何成对训练数据的情况下，所提出的算法具有良好的操作性和泛化性。在各种弱光数据集上的实验结果表明，我们的方法在主观和客观指标下都优于多种最先进的方法。此外，我们还证明了EnlightGAN可以很容易地适应真实的低噪声光照图像，并产生视觉上令人愉悦的增强图像。我们未来的工作将探索如何在一个统一的模型中基于用户输入控制和调整光增强水平。由于光增强的复杂性，我们还希望将算法与传感器创新相结合。