《Low-Light Image Enhancement via Structure Modeling and Guidance》论文超详细解读（翻译＋精读）

小西柚code

已于 2024-06-06 20:57:34 修改

阅读量929

点赞数 18

分类专栏：论文阅读文章标签：计算机视觉深度学习人工智能

于 2024-06-06 20:56:26 首次发布

本文链接：https://blog.csdn.net/m0_52275819/article/details/139472709

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前言

今天精读的是一篇来自2023年CVPR的一篇论文，主要还是跟低光图像增强有关。论文下载地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Xu_Low-Light_Image_Enhancement_via_Structure_Modeling_and_Guidance_CVPR_2023_paper.pdf

Abstract —摘要

翻译

本论文提出了一种新的框架来改善低光照图像的质量，该框架同时处理图像的外观与结构特征。通过利用结构特征来引导外观增强，使得处理结果既锐利又逼真。在我们的框架中，结构建模具体通过在低光照图像中进行边缘检测来实施。这是通过一个经过改良的生成模型实现的，该模型通过设计一个能够感知结构的特征提取器和生成器来完成。所检测到的边缘图能够精确强调重要的结构信息，并且在暗部区域对于噪声具有很强的鲁棒性。

此外，为了提升外观建模的效果，我们采用了简单的U-Net结构，并提出了一种新颖的、受结构引导的增强模块，该模块包含结构引导的特征合成层。外观建模、边缘检测器及增强模块能够进行端到端的联合训练。

实验在典型的数据集（涵盖sRGB和RAW领域）上进行，证明了不论在哪种数据集上，我们的模型采用相同的架构均能持续达到领先业界的性能表现。相关代码已公开，可访问 https://github.com/xiaogang00/SMG-LLIE 获取。

精读

本文核心：作者提出一种创新框架，旨在提升低光照图像质量，通过综合改善图像的外观和结构特征，实现既清晰又真实的增强效果。
本文采用方法：作者通过结构建模强化图像边缘，利用U-Net进行外观优化，并采用结构引导的增强模块，在一个端到端训练的框架下协同提升低光照图像的质量。
达到的效果：实验表明，该模型在不同数据集（包括sRGB和RAW格式）上都能保持行业领先的性能，显示了其算法的普遍有效性和鲁棒性。

一、Introduction—简介

翻译

低光增强旨在从昏暗且充满噪点的照片中恢复正常的、无噪点的图像，这是一个长期存在且对计算机视觉领域极为重要的课题。它的应用范围广泛，涵盖了低光成像领域[11, 27, 50]，同时也促进了夜间检测等许多下游视觉任务的发展[28, 48, 64]。为了解决低光增强问题，已有一些方法被提出。这些方法设计网络学习如何调整色彩、色调和对比度[7, 10, 45, 63]，近期的一些工作也开始考虑图像中的噪点问题[24, 55]。大多数这类研究致力于优化输出图像与真实图像在视觉效果上的差距。然而，它们忽视了对暗部区域结构细节的明确建模，导致输出图像模糊，结构相似度指数（SSIM）[51]值低，如图2所示。有些研究[34, 74]已经注意到利用结构信息（如边缘）的积极作用，边缘可以区分暗部区域的不同部分，从而指导增强过程。而且，在暗部区域加入合理的边缘先验信息能减少外观重建优化问题的不确定性。这些框架[34, 74]使用基于编码器-解码器的网络和回归损失来进行结构建模。但由于严重低可见性和噪点导致的暗区不确定性，相应的结构建模结果并不理想。此外，现有直接拼接提取结构信息的策略[34, 74]也有待改进。

在本文中，我们提出利用一种通过对抗性损失训练的生成模型S来以边缘形式进行结构建模。随后，我们设计了一种新机制E，以便在结构引导的特征合成帮助下进行初步的低光外观增强（此模块标记为A）。通过有效的结构建模与引导，我们的框架能够输出锐利且逼真的图像，重建质量令人满意，如图2所示。

图2展示了一个来自SID-sRGB[3]的具有挑战性的低光画面（a），该画面经由一种最新的技术（c）以及我们的方法（e）进行增强。我们的方法能够从输入图像中合成结构图（d），从而使得图像展现出更清晰的细节、更明显的对比度以及更加生动的色彩。尽管（c）方法的峰值信噪比（PSNR）较高，达到28.17，但其结构相似性指数（SSIM）较低，仅为0.75。相比之下，我们的方法在提升画面质量的同时，在dB值（衡量图像清晰度的一种指标）和SSIM上都取得了高分，分别达到了28.60dB和0.80，这意味着在保真度和视觉质量上都有更好的表现。

相较于先前的结构建模网络，我们提出的生成模型S有两个重要改进。首先，我们注意到向生成模型S的编码器和解码器均提供结构感知描述符带来影响，这能够分离外观表示并突出结构信息。因此，我们设计了一个结构感知特征提取器（SAFE）作为编码器部分，它通过空间变化操作（借助自适应长程和短程计算实现）从暗光图像及其梯度中提取结构感知特征。提取出的结构感知张量随后被送入解码器部分以生成所需的结构图。此外，与当前使用正常光照图像的结构图进行回归学习的方法不同，我们发现了使用GAN损失的优点。GAN损失能减少由噪点和不可见性引起的生成结构图中的伪影，突出了增强所需的关键结构。生成模型S的主干网络采用了一种修改过的StyleGAN架构。

为了利用获得的结构图提升外观，我们设计了一个结构引导增强模块（SGEM）作为E。SGEM的主要目标是学习残差，以此改进初始外观建模的结果。在SGEM中，依据结构图生成空间自适应的卷积核和归一化参数。然后，SGEM解码器每一层的特征会经过空间自适应卷积和归一化处理。尽管SGEM的整体架构形式上类似于简单的U-Net[38]，但它能有效增强原始外观。

S、A和E可以同时端到端地进行训练。我们在代表性基准上进行了广泛的实验。实验结果显示，如图1所示，在所有数据集上，采用相同架构的我们的框架在PSNR和SSIM指标上均达到了最先进的性能。总的来说，我们的工作有四点贡献：

我们提出了一种新的低光增强框架，通过同时进行结构建模和引导，以提升外观增强效果。
我们设计了一种新颖的结构建模方法，其中结构感知特征被构建并采用GAN损失进行训练。
针对外观改善，我们提出了一种新的结构引导增强方法，该方法由恢复的结构图引导。
我们在不同数据集上，包括sRGB和RAW领域，进行了广泛的实验，展示了我们框架的有效性和泛化能力。

图1显示，我们的方法使用相同的网络架构，在不同的sRGB和RAW数据集上持续稳定地达到了当前最佳（State-Of-The-Art, SOTA）的性能表现。这说明我们的算法具有很好的通用性和适应性，能够在多种类型的图像数据上都展现出优越的效果。

精读

GAN损失（GAN Loss）：指在生成对抗网络（Generative Adversarial Networks, GANs）中，用于指导生成器（Generator）和判别器（Discriminator）学习过程的损失函数。这个损失函数量化了生成器生成样本与真实数据之间的差异，以及判别器区分真实数据与生成数据的能力。

问题背景：

已有众多方法普遍忽略了暗部区域的结构细节重建，导致输出图像模糊，结构相似度低。
研究表明，利用图像中的结构信息（如边缘）能有效区分暗部区域，引导增强过程，减少重建不确定性。但目前对此的应用并不充分。
现有的基于编码器-解码器网络和回归损失进行结构建模的方法，因低光和高噪点问题，在暗部区域的结构恢复上表现不佳。
直接拼接提取的结构信息策略简单且不完善，未充分解决低光下结构细节恢复的复杂性，凸显了技术改进的需求。

核心组件：①结构建模的生成模型S；②结构引导的外观增强模块E（SGEM）。

核心思路概述：

结构建模（生成模型S）:
- 创新点一：结构感知特征提取器(SAFE)：作者引入了一个新颖的结构感知特征提取器，该提取器作为生成模型S的编码器部分。SAFE利用空间变化操作，结合自适应长程和短程计算，从低光图像及其梯度中提取结构信息。
- 创新点二：GAN损失优化：与以往仅依赖回归损失的结构建模不同，本方法采用对抗性损失（GAN损失）来训练生成模型S。通过GAN框架，确保了结构图的准确性和清晰度。生成模型S基于修改后的StyleGAN架构，进一步保证了生成图像的质量和逼真度。
结构引导的外观增强（E/SGEM）:
- 增强机制：SGEM模块设计用于利用从生成模型S得到的结构图来指导和优化低光图像的外观。它通过学习残差来改进初步的外观增强效果，这意味着SGEM专注于在保持原有特征的同时，针对性地增强和校正细节。
- 空间自适应处理：SGEM的创新之处在于其能够依据结构图动态生成空间自适应的卷积核和归一化参数。这一机制使得在处理每层特征时，能够更精准地适应图像局部结构和特性，从而进行更为精细的外观调整。虽然其架构类似U-Net，但通过这种自适应处理，提升了增强效果，使得输出图像既锐利又逼真。

二、Related Work—相关工作

A. Low-light enhancement with learning—基于学习的低光增强

翻译

当前基于深度学习的低光图像增强方法主要聚焦于优化输出图像与真实图像之间外观重建的误差[1, 9, 13, 17, 24, 26, 46, 55, 57, 58, 61, 62, 67, 68, 70, 71]。然而，即便是采用最先进（SOTA）的技术，暗部区域的增强图像往往仍然显得模糊不清[56]。对此，一些研究尝试利用结构信息[16, 74]来提升图像的外观质量。为了得到结构图，有些研究采用离线计算的边缘/梯度[11, 16, 36, 41]或预先训练好的网络[23]，但这些方法并未随着低光数据进行自适应优化，因而难免会产生瑕疵。尽管已有若干方法[34,74]提议同时训练边缘检测器和图像增强网络，并采用回归损失，但它们的改进效果仍然有限。此外，现有的策略多是将提取出的结构图与原图像直接拼接来促进增强过程[16, 34, 74]，这种做法无法在增强网络的所有层面上设置结构引导。

与现有工作不同，我们提出了一种新的生成模型，利用GAN损失从暗光输入图像中稳健地提取边缘图，为每个特征层的增强提供了至关重要的边缘信息。这样做确保了增强过程中结构指导的全面性和有效性，从而提升整体的增强效果。

精读

现有方法的不足：现有低光图像增强技术主要集中在外观重建，但面临暗部细节模糊的问题。尽管尝试融入结构信息，要么因使用固定算法和预训练模型缺乏自适应性，要么虽结合训练但改善效果有限，且大多仅在浅层次合并结构图，未能在增强网络各层有效利用结构引导。这显示出在深度利用结构信息提升低光图像质量方面的缺陷。

思路：作者提出利用GAN损失提取低光图像边缘作为结构信息引导，改进图像增强网络，以实现更优质的细节恢复和结构保留。

B. Generative model for restoration—生成模型在修复任务中的应用

翻译

近期生成模型的发展使得一系列网络，例如StyleGAN [15]，在某些任务中，如面部修复[12, 59, 73]，实现了显著的修复效果。然而，它们的表现高度依赖于预训练模型，并且通常局限于特定的类别内。在本文中，我们展示了一种新颖的应用方式，即利用带有GAN损失的生成模型来合成结构信息，用以完成低光图像增强的修复任务。这种方法不依赖于预训练模型，而且这一思路实际上可以拓展到多种修复任务中，开辟了研究的新方向。

精读

总结：近期生成模型如StyleGAN虽在面部修复等领域取得显著成效，但存在依赖预训练模型和类别限制的问题；本文提出一种新方法，使用GAN损失的生成模型合成结构信息来强化低光图像修复，该方法跳脱预训练依赖，并有望广泛应用于各类修复任务，引领研究新方向。

三、Method—方法

图3展示了我们框架的概览，其中包括明确的外观建模 $\mathbb{A}$ 、结构建模 $\textsl{S}$ 以及结构引导增强模块SGEM $\varepsilon$ 。对外观模型的输入图像 $^{_{}}$ $I_{a}$ 和 $\hat{I}$ 的监督信息来自正常光照图像 $\bar{I}$ ，而对于结构模型的输入图像 $I_{s}$ 的监督信息来自正常光照图像 $\bar{I}$ 中提取的边缘 $\bar{I}{_{s}}$ 。整个框架能够进行端到端的训练。

我们的框架概览可通过图3来查看。所提出的框架对图像的外观（A）和结构（S）都进行了明确的建模，它们分别会在第3.1节和第3.2节中详细介绍。结构映射被用来指导外观建模的增强，这一过程通过模块E实现，该模块将在第3.3节中介绍。整个框架能够进行端到端的训练，具体细节会在第3.4节详述。

简单来说，这个研究提出了一种框架，它分两部分处理图像：图像的“样子”（外观）和“骨架”（结构）。框架利用一种特殊方法（模块E）让“骨架”指导如何改善“样子”的处理。从开始到结束，整个系统可以一气呵成地学习提升图像质量，相关训练步骤会在后续章节详细说明。

3.1. Appearance Modeling—外观建模

翻译

在我们的框架中，针对输入的低光图像I，我们采用了一个通用的U-Net [3]网络来进行外观建模，如图3（a）所示，其中 $I_{a}$ 表示经过外观建模处理后的图像 $\mathbb{A}$ ( $\mathit{I}$ )。实验结果显示，尽管我们仅使用了这样一个常规的外观预测网络，但结合结构模型后，我们的方法仍能达到当前最优（SOTA）的性能表现。

精读

总结：如图所示，输入的低光图像I经过由U-Net网络训练的外观模型 $\mathbb{A}$ 生成图像 $I_{a}$ 。

3.2. Structure Modeling—结构建模

翻译

在本论文中，我们采用边缘信息来进行结构建模，这是一种广泛适用、能应用于多种场景的表征方式。我们发现，像StyleGAN [15]这样的高效生成模型，可以通过修改变成适用于低光图像的强大结构估计器 $\textsl{S}$ ，如图3（b）所示。通过结合结构回归损失和GAN损失， $\textsl{S}$ 能够准确预测出对外观增强有益的有效结构图。在本文中，我们使用StyleGAN的主体架构来构建 $\textsl{S}$ 。给定输入图像I，我们可以通过计算获得其结构图S为

$I_{s}=\textsl{S}\left ( I \right )=\textsl{G}\left ( \textsl{F} \right(I)) , (1)$

其中， $\boldsymbol{\textsl{F}}$ 代表编码器部分，即“结构感知特征提取器（SAFE）”，它包含N个层级和两个映射函数；而 $\boldsymbol{\textsl{G}}$ 则是解码器部分，即“结构感知生成器（SAG）”。 $\boldsymbol{\textsl{F}}$ 和 $\boldsymbol{\textsl{G}}$ 的结合使我们的框架在结构建模方面能比以往的生成模型和边缘检测器表现得更为出色。

3.2.1 Structure-Aware Feature Extractor (SAFE)—结构感知特征提取器（SAFE）

尽管传统的基于编码器的生成模型可以被用作结构提取器，但通过将结构特征同时输入编码器和生成器，可以进一步提升其性能。早期基于编码器的生成模型仅从内容特征中提取信息，这适用于内容生成（如sRGB图像），但对于结构建模而言则不够充分。此外，传统生成模型中的特征提取器主要依赖于短程操作（如CNN）[37, 42, 47]，而根据[56]所述，在低信噪比（SNR）的暗部区域构建有用表征需要长程操作。因此，我们在S中设计了如图3（b）所示的结构感知特征提取器SAFE，其主要目的是提取可靠的结构特征，以便后续在结构感知生成器SAG中使用。与常规生成模型的编码器不同，SAFE从有助于边缘建模的内容和梯度图中同时获取所需信息。SAFE在特征提取过程中采用了空间变化的操作。

a. The formulation of gradient maps—梯度地图的构建方法

如图3（b）所示，我们通过多层编码器 $F_{1}$ ，..., $F_{N}$ 对输入图像 $\textsl{I}$ 进行信息提取，每层编码器都包含了下采样操作（上采样、下采样到底是什么？-CSDN博客）。假定每层的输入特征为 $f_{i}$ ， $i\epsilon \left [ 1,N \right ]$ ，我们会计算沿x轴和y轴方向上 $f_{i}$ 的的梯度图，得到集合{ $g_{+x}\left ( f{_{i}} \right )$ , $g_{-x}\left ( f{_{i}} \right )$ , $g_{+y}\left ( f{_{i}} \right )$ , $g_{-y}\left ( f{_{i}} \right )$ , $g_{+x,+y}\left ( f{_{i}} \right )$ , $g_{+x,-y}\left ( f{_{i}} \right )$ , $g_{-x,+y}\left ( f{_{i}} \right )$ , $g_{-x,-y}\left ( f{_{i}} \right )$ }，其中 $g$ 是用于计算一阶梯度的函数。这些梯度图着重突出了边缘区域，有助于结构特征的有效构建。

b.Spatially-varying feature extraction for structure—空间变化的结构特征提取

我们设计了编码器中的空间变化操作，以有效地提取结构特征。对于 $f_{i}$ 和 $g\left ( f_{i} \right )$ ，我们分别设置了对应的长程编码器（LRE）和短程编码器（SRE）模块。变压器块已被证实具有在长程建模方面的非凡能力[4, 25, 52, 53, 65, 66]，而CNN块擅长提取短程特征。因此，LRE和SRE分别实现为变压器块和CNN块。为了构建高效的变压器模块，我们采用了基于窗口的注意力机制[25]和局部增强前向模块[52]的变压器块。假设LRE和SRE模块分别表示为 $F_{l}$ 和 $F_{s}$ ，则特征提取过程可表述为

$l{_{i}}=F_{i}^{l}\left (f_{i} \right ), s_{i}=F_{i}^{s}\left (f_{i} \right ),$

$\bigtriangledown l_{i}=\bigtriangledown F_{i}^{l}\left (\bigtriangledown g(f_{i}) \right ) , \bigtriangledown s_{i}=\bigtriangledown F_{i}^{s}\left (\bigtriangledown g(f_{i}) \right ) ,(2)$

其中 $\bigtriangledown \in \left \{ ^{+x},^{-x},_{+y},_{-y},_{+y}^{+x}, _{+y}^{-x},_{-y}^{+x},_{-y}^{-x}\right \}$ ， $l_{i}$ 代表长程特征， $s_{i}$ 则是短程特征。我们另外采用了长程-短程融合（LSR-F）模块来合并长程和短程操作的输出，该模块的结构是多层感知机。假设LSR-F表示为 $F_{i}^{f}$ ，则对于 $f$ 和 $g$ 的空间变化提取特征可以表述为

$h_{i}=F_{i}^{f}\left ( l_{i},s_{i} \right ),\bigtriangledown h_{i}=\bigtriangledown F_{i}^{f}\left ( \bigtriangledown l_{i},\bigtriangledown s_{i} \right ).(3)$

此外，这些针对不同方向的空间变化提取特征能够通过梯度融合（Grad-F）模块自适应地合并起来，具体表达式如下:

$f_{i+1}=F^{g}_{i}(h_{i},^{+x}h_{i},^{-x}h_{i},_{-y}h_{i},_{+y}h_{i},^{+x}_{+y}h_{i},^{-x}_{+y}h_{i},^{+x}_{-y}h_{i},^{-x}_{-y}h_{i}),(4)$

其中 $F^{g}_{i}$ 表示梯度融合（Grad-F）模块。

3.2.2 Structure-Aware StyleGAN Generator (SAG)—结构感知StyleGAN生成器

在获得结构感知特征 $f_{i}$ （其中i属于[1, N]范围），接下来的步骤是获取StyleGAN骨干网络的 $w$ 空间。沿袭以往使用编码器处理退化数据的StyleGAN模型[59]，我们首先将 $f_{N}$ 映射到 $z$ 空间，随后再映射到 $w$ 空间，表达式如下：

$w=M_{w}(z)=M_{w}(M_{z}(P(f_{N}))),(5)$

其中， $M_{w}$ 和 $M_{z}$ 是映射函数， $P$ 代表池化操作。提取得到的特征 $f_{i}$ （i属于[1, N]范围）充当噪声图，用以将结构信息输入到生成器 $G$ 中，如图3（b）所示。

精读

总结：

结构估计器 $\textsl{S}$ ：编码器 $\boldsymbol{\textsl{F}}$ （结构感知特征提取器SAFE）+解码器 $\boldsymbol{\textsl{G}}$ （结构感知生成器SAG）；
编码器 $\boldsymbol{\textsl{F}}$ 包含N个层级（ $F_{N}$ ）和两个映射函数 $M_{z}$ 和 $M_{w}$ ，即下图中红框部分;
解码器 $G$ 为下图绿框部分。
结构感知特征提取流程（具体看下图黄框和蓝框）：①用输入特征 $f_{i}$ 构建梯度图；②用梯度图进行结构特征提取；③将融合成的特征作为下一个输入特征 $f_{i+1}$ 。
结构感知StyleGAN生成（具体看 $M_{z},M_{w}$ ）：①在获得 $f_{N}$ 后，先对 $f_{N}$ 进行池化操作，并映射到 $z$ 空间，最后映射到 $w$ 空间。②将特征 $f_{i}$ 作为噪声图，用以将结构信息输入到生成器 $G$ 中。③根据w空间和噪声图得到 $I_{s}$ 。

3.3. Structure-Guided Enhancement Module—结构引导增强模块

翻译

用 $I_{s}$ 表示以低光图像 $I$ 为输入的结构建模，该建模可用于增强 $I_{a}$ 的外观预测。这种增强可以从两个方面来理解。首先，利用结构信息可以增强图像细节，特别是对于信噪比较低的暗部区域，有助于生成清晰且逼真的图像效果。其次，边缘信息有助于区分不同的暗部区域，并在它们之间建立更好的关联。假设结构引导增强模块（Structure-Guided Enhancement Module，简称SGEM）表示为E，它也可以实现为一个简单的U-Net结构。如图3（c）所示，其输入是 $I_{a}$ 与 $I$ 的拼接，两者之间的差异可以为 $I_{a}$ 的增强提供粗略的方向。这样，增强过程可以表示为

$\hat{I}= \varepsilon \left ( I_{a} \bigoplus I \mid I_{s} \right ) + I_{a},(6)$

其中 $\bigoplus$ 表示拼接操作，而 $I_{s}$ 是在模块 $\varepsilon$ 中用于增强的条件，简单来说，就是将图像的初步预测结果 $I_{a}$ 与原图 $I$ 进行合并后作为输入，再通过一个名为“结构引导特征合成”的过程，在模块 $\varepsilon$ 中利用增强信息来确定如何增强图像，从而改善图像的视觉效果。

3.3.1 Structure-Guided Feature Synthesis—结构引导的特征合成

假设SGEM的解码器中有K层，每一层的输入为 $d_{j}\in \textsl{R}^{b\times p\times q}$ ，其中j ∈ [1, K]，b、p和q分别代表通道数、特征图的高度和宽度。在第j层，我们首先将结构图 $I_{s}$ 调整至与 $d_{j}$ 相同的尺寸，记为 $I^{j}_{s}$ 。为了利用结构图的引导作用，我们建议从 $I^{j}_{s}$ 中生成空间变化的卷积核和归一化图。这一生成过程分别通过结构引导卷积（SGC）和结构引导归一化（SGN）来完成。

如图3（c）所示，SGC为不同位置生成不同的卷积核。特征图可以按以下方式处理:

$K_{j}=G_{c,j}\left ( I^{j}_{s} \right ),\hat{d_{j}} = d_{j} \ast K_{j},(7)$

其中 $\hat{d_{j}}\in R^{b\times p\times q}$ ，“∗”代表卷积操作， $K_{j}\in R^{(b\times \left ( k_{h}\times k_{w} \right ))\times p\times q}$ 是第j层中合成的卷积核（ $k_{h}$ 和 $k_{w}$ 分别是核的高度和宽度），而 $G_{c,j}$ 是该层中的结构引导卷积（SGC）。

SGN能够为不同位置预测不同的归一化图以处理特征图，具体操作为

$\alpha_{j},\gamma_{j}=G_{n,j}\left ( I^{j}_{s} \right ),\bar{d_{j}}=IN\left ( \hat{d_{j}} \right )\circ \alpha_{j} + \gamma_{j},(8)$

其中 $\alpha_{j} \in R^{b\times p\times q}$ 和 $\gamma_{j} \in R^{b\times p\times q}$ 分别是第j层的归一化参数，◦表示哈达玛积（逐元素乘法）， $\bar{d_{j}}\in R^{b\times p\times q}$ ， $IN$ 代表实例归一化操作，而 $G_{n,j}$ 是第j层中的结构引导归一化（SGN）。在第j层中，特征图的增强过程可以表示为

$d_{j+1}=C\left ( d_{j} \right )+\bar{d_{j}},(9)$

其中C表示U-Net第j层中原有的卷积操作。

精读

结构引导增强流程：

将低光图像 $I$ 和经过外观建模处理的 $I_{a}$ 进行合并并作为输入；
利用结构建模生成的 $I_{s}$ 进行增强。

结构引导的特征合成图解：

3.4. Loss Function—损失函数

翻译

我们的框架采用端到端的方式进行训练，损失函数分为三个部分。

a.Loss for appearance modeling—外观建模的损失函数

外观建模部分A的损失函数是预测图像 $I_{a}$ 与真实图像 $\bar{I}$ 之间的重建误差。该损失既在像素级别也在感知级别上进行计算，具体为

$L_{a}=\left \| I_{a}-\bar{I} \right \|+\left \| \Phi (I_{a})-\Phi (\bar{I}) \right \|,(10)$

其中 $\Phi ()$ 表示从VGG网络[39]中提取特征。

b.Loss for structure modeling—结构建模的损失

监督结构建模 $\textsl{S}$ 的一种方法是使用正常光照数据的结构作为地面真实，并采用回归损失。这一策略被现有的边缘预测方法[33,40]所采纳。对于输入图像 $I$ ，我们假设其地面真实是从 $\bar{I}$ （使用Canny边缘检测器[2]）中提取的边缘图 $\bar{I_{s}}$ 。回归损失采用的是二元交叉熵，表达式为

$L_{s}=-[\bar{I_{s}}\log I_{s}+\left ( 1-\bar{I_{s}} \right )\log\left ( 1-I_{s} \right )],\bar{I_{s}}=C\left ( \bar{I} \right ),(11)$

其中C代表Canny边缘检测器。此外，暗光图像中的内容不可见性和噪声影响会加剧结构估计问题的病态程度。因此，仅依靠回归损失从暗光输入图像中检测结构细节是非常困难的。我们发现GAN损失能有效地解决回归损失的这一局限性。GAN损失是通过设置一个判别器D来实施的，具体来说，

$L_{g}=E_{I}\left (\log\left ( 1+\exp(-D\left ( I_{s}) \right ) \right ) \right ),E_{I}\log\left ( 1+\exp(-D\left ( S(I) \right )) \right ),L_{d}=E_{I}\left (\log\left ( 1+\exp(-D\left ( \bar{I_{s}} \right )) \right ) \right )+E_{I}\left ( \log\left ( 1+\exp(+D\left (I_{s}) \right ) \right ) \right ),(12)$

其中 $L_{g}$ 和 $L_{d}$ 分别是针对生成器S和判别器D的损失函数，而E代表平均操作。

c.Loss for SGEM—结构引导增强模块的损失函数

SGEM $\varepsilon$ 是为了细化外观建模，其损失函数同样也是重建误差，具体为

$L_{m}=\left \| \hat{I}-\bar{I} \right \|+\left \| \Phi \left ( \hat{I} \right )-\Phi \left ( \bar{I} \right ) \right \|.(13)$

d.Overall loss function—总体损失函数

整个框架采用端到端方式进行训练，总体损失函数为

$L=\lambda_{1}L_{a}+ \lambda_{2}L_{s}+\lambda_{3}L_{g}+\lambda_{4}L_{m},(14)$

其中λ1、λ2、λ3、λ4是各损失项的权重系数。

四. Experiments—实验

翻译

4.1. Implementation Details—实施细节

我们的框架使用PyTorch [32]进行实现。由于计算资源有限，我们的框架在配备RTX3090的4块GPU上进行训练。为了最小化损失，我们采用了Adam [18]优化器，其动量设置为0.9。

4.2. Datasets—数据集

现有的低光增强数据集具有不同的特性。SID [3]是一个在sRGB和RAW领域都极具挑战性的数据集，其中许多暗部区域需要在结构引导下进行增强。对于SID，每个输入样本都包含一对短曝光和长曝光的图像，而低光图像由于在极暗环境下拍摄，含有严重的噪声。我们在实验中使用了SID中由索尼相机捕获的子集。此外，我们还采用了LOL [62]数据集，该数据集分为LOL真实（LOL-real）和LOL合成（LOL-synthetic）两部分。LOL-real中的低光图像来自现实世界的收集；而LOL-synthetic则是通过合成方式创建的。

4.3. Comparison on sRGB Domain—sRGB域上的对比研究

我们将我们的方法与众多针对低光增强的最新技术（SOTA）进行了比较，包括SID [3]、DeepUPE [44]、KIND [69]、DeepLPF [30]、FIDE [55]、LPNet [22]、MIR-Net [67]、RF [19]、3DLUT [68]、A3DLUT [46]、Band [61]、EG [13]、Retinex [24]、Sparse [62]、UNIE [14]、LCDR [43]、LLFlow [49]、DSN [70]、RCTNet [17]、UTVNet [71]、SCI [28]、URetinex [54]以及SNR [56]。

a.Quantitative analysis—定量分析

我们采用PSNR和SSIM [51]作为评估标准。更高的SSIM意味着结果中包含更多的高频细节和结构信息。表格1和表格2展示了在LOL-real和LOL-synthetic数据集上的对比情况。我们的方法超越了所有基线方法，得益于成功的结构建模和引导，SSIM的提升尤为明显。这些数值要么来源于各论文本身，要么通过运行公开代码得到。表格3展示了在SID数据集上的对比，可以看出，虽然之前的SOTA方法，如SNR [56]，可以达到较高的PSNR值，但它们相应的SSIM值并不令人满意。我们的框架再次展现出优于其他方法的最佳性能，并且在SSIM上以较大优势明显优于其他方法。

b.Qualitative analysis—定性分析

我们在图4中提供了可视化样本，以将我们的方法与在LOL-real和LOL-synthetic上表现最佳的基线方法进行对比。我们的结果显示出更佳的视觉质量，包括更高的对比度、更准确清晰的细节、更自然的色彩一致性和亮度。图5也展示了在SID上的视觉对比，尽管SID中的输入图像存在明显的噪声和弱光问题，但我们的方法相比其他方法能产生更少瑕疵、更真实的增强结果。

图4. 在LOL-real（上）和LOL-synthetic（下）上的视觉对比。“Ours”表示我们的方法，呈现出更少的噪声和更清晰的可见度。

图5展示了在SID数据集的sRGB域（上）和RAW域（下）上的视觉对比。“Ours”（我们的方法）处理后的图像表现出更少的噪点以及更加清晰的视觉细节。

4.4. Comparison on RAW Domain—RAW域上的比较研究

我们将我们的方法与专为RAW输入设计的现有低光图像增强方法进行了比较。基线方法包括CAN [5]、DeepUPE [44]、SID [3]、EEMEFN [74]、LLPackNet [20]、FIDE [55]、DID [29]、SGN [8]、DCE [9]、RED [21]以及ABF [6]。与sRGB域的增强相比，RAW输入包含更多信息，这导致了更高PSNR和SSIM值的增强效果。

量化结果如表4所示。我们的方法在RAW域上仍然就PSNR和SSIM而言获得了最佳的SOTA性能。我们的方法产生了最高的SSIM值，这表征了图像的丰富度和锐利度，因为我们的方法明确地构建了有效的结构建模。图5中的定性结果也支持了我们框架在RAW域上的优越性。如图所示，这些结果同样证明了我们的方法有效增强了图像亮度，揭示了细节，同时抑制了伪影。

4.5. Ablation Study—消融实验

我们通过逐一移除框架中的不同组件来考虑以下消融实验设置：
1. "Ours w/o A"：移除A模块，仅将输入图像和结构图作为E的输入。
2. "Ours w/o S"：删除结构建模模块S，框架变为两个串联网络的结构，仅用于外观建模。
3. "Ours w/o F"：用StyleGAN的传统编码器[59]替换SAFE。
4. "Ours w/o G"：在E中移除结构引导特征合成，将S的输出直接设为E的输入。
5. "Ours w/o S.G."：使用基于SOTA的编码器-解码器边缘预测网络[33]来实现S。
6. "Ours w/o GAN"：在训练S时不使用GAN损失。

我们在sRGB域上的所有三个数据集上进行了消融研究。表5总结了结果。与所有消融设置相比，我们的完整设置获得了更高的PSNR和SSIM。"Ours w/o A"与"Ours"的比较表明在我们的框架中同时进行外观和结构建模的必要性。"Ours w/o S"与"Ours"之间的对比证明了结构引导对增强外观建模的有效性。结果还显示了"SAFE"("Ours w/o F"与"Ours"的比较)、"结构引导特征合成"("Ours w/o G"与"Ours"的比较)以及结构建模中GAN损失("Ours w/o GAN"与"Ours"的比较)的影响。此外，"Ours w/o S.G."与"Ours"的比较证明了在低光图像上，我们的S相对于现有基于编码器-解码器边缘检测网络的优越性。

进一步地，为了展示我们框架的鲁棒性，我们进行了额外的评估设置，即在输入图像中添加额外的噪声（高斯分布，均值为0，方差范围从30到50）。结果在表5中以"Ours with noise"展示，接近无噪声情况，表明我们的框架对于扰动具有鲁棒性。

4.6. Evaluation for Structural Modeling—结构建模的评估

在本节中，我们针对结构建模进行了消融研究。因为我们把正常光照图像的边缘图设为地面真实，所以我们使用预测与地面真实之间的交叉熵（CE）和L2距离作为评估指标。我们比较了同样采用结构建模的消融设置，即“Ours w/o GAN”、“Ours w/o S.G.”和“Ours w/o F”。结果报告在表6中。与所有消融设置相比，我们的完整设置能从低光图像中获得最准确的结构建模。通过对比“Ours w/o F”和“Ours w/o S.G.”与“Ours”，我们可以展示在结构建模方面，我们的S相对于其他替代方案的优越性。通过比较“Ours”与“Ours w/o GAN”，我们展示了在低光图像结构建模中GAN损失的效果。视觉对比结果也在图6中给出。从中可以看到，没有GAN损失时，边缘预测的不确定性会增加，导致边缘预测出现伪影。与“Ours w/o F”和“Ours w/o S.G.”的结果相比，我们的结果拥有更多边缘细节且伪影更少。

图6. 在LOL-real、LOL-synthetic和SID数据集（从上至下）上关于结构建模的视觉对比。

4.7. User Study—用户研究

我们开展了一项大规模的用户研究，邀请了100名参与者进行主观评价。我们选取了在SID和LOL数据集上平均PSNR最高的五个最强基线方法。所有方法都在SID数据集上进行了训练，并且我们评估了它们在iPhone 8实际拍摄的低光照片（总共50张图片）上的性能，这些照片涵盖了室内和室外等多种拍摄环境。遵循[56]中的设定，评价通过用户对图7中所示六个问题的评分完成，评分范围从1分（最差）到5分（最好）。图7展示了不同方法的评分分布情况。我们可以看到，我们的框架获得了更多高分和较少的低分，显示出我们结果的优越感知效果。

4.8. Structure Modeling with More Data—利用更多数据进行结构建模

上述所有结果（包括我们的方法和基线）都是在网络未经额外数据训练的情况下获得的。收集匹配的低光和正常光照数据，即 $I$ 和 $\bar{I}$ ，是困难且成本高昂的，而用于监督结构建模S的配对数据则较为简单，因为地面真实 $\bar{I_{s}}$ 可以通过从 $\bar{I}$ 应用边缘检测算法轻松获得。因此，我们可以轻易地从另一个包含正常光照数据的数据集中为S获取额外的数据对。遵循[60]的做法，我们采用AVA数据集[31]来获取数据对，以便微调S。通过为非常暗的区域合成更好的结构，结果可以再次得到提升，如表7中的“Ours with E.D.”所示。

4.9. Ours with Other Structural Representations—我们的方法与其他结构表示形式结合

在本工作中，我们采用边缘进行结构建模，因为边缘是适用于多种场景的通用结构表示。我们的框架也适用于其他结构表示形式，例如分割图和深度图。我们采用了DPT模型[35]，它在ADE20K[72]和MIX 6[35]上进行了训练，用于提取正常光照数据的分割图和深度图。这些图被用作地面真实来训练S。如表7所示，所有这些结果（“Ours with Seg.” 和 “Ours with Dep.”）都优于表1、2、3中的基线，证明了我们结构建模和引导策略的有效性。

精读

实验框架：PyTorch

训练配置：RTX3090的4块GPU

优化器：Adam

动量：0.9

总结：通过一系列实验验证了所提框架的有效性，包括实现在不同数据集上的性能对比、额外数据对结构建模的提升效果、用户主观评价以及一些具体技术（如GAN损失）对结果质量的贡献分析，证明本论文提及的方法的优越性。

五. Conclusion—讨论

翻译

本文中，我们提出了一种新框架来进行结构建模，并利用恢复的结构图来增强外观建模的结果。与现有方法不同，我们框架中的结构建模是通过一种包含结构特征的改进生成模型进行的，并采用GAN损失进行训练。我们进一步设计了一种新颖的结构引导增强模块，通过结构引导的特征合成层来进行外观增强。在sRGB和RAW域上的广泛实验验证了我们框架的有效性。

局限性。使用我们的模型在极暗区域（几乎无信息）进行结构生成时，仅依靠现有的低光数据集进行训练可能会产生瑕疵。如第4.8节所述，这一问题可以通过使用大规模数据进行训练来缓解，但这需要更多的计算资源和较长的训练时间。