本研究针对在弱光条件下拍摄的图像可能严重降低图像质量的问题进行了探索。解决一系列低光图像的退化可以有效提高图像的视觉质量和高级视觉任务的性能。在本研究中,我们提出了一种新颖的基于Retinex的真实低光到真实正常光网络(R2RNet),用于低光图像增强,其中包括三个子网络:分解网络(Decom-Net)、去噪网络(Denoise-Net)和重照网络(Relight-Net)。这三个子网络分别用于图像分解、去噪、对比度增强和细节保护。我们的R2RNet不仅利用图像的空间信息来提高对比度,还利用频率信息来保护细节。因此,我们的模型在所有退化图像上都取得了更加稳健的结果。与大多数以往的方法不同,它们是在合成图像上进行训练的,我们收集了第一个大规模真实世界配对的低/正常光图像数据集(LSRW数据集),以满足训练要求,并使我们的模型在真实场景中具有更好的泛化性能。在公开可用的数据集上进行了大量实验,结果表明我们的方法在定量和视觉上均优于现有的最先进方法。此外,我们的结果显示,通过在低光条件下使用我们方法获得的增强结果,可以有效提高高级视觉任务(如人脸检测)的性能。
I. INTRODUCTION
图像捕获中的光照不足严重影响图像质量,表现在低对比度和低可见度等多个方面。消除这些退化,将低光图像转换为高质量清晰图像有助于提高高级视觉任务的性能,例如图像识别[1]、目标检测[2]、语义分割[3]等,并且还可以改善一些实际应用中智能系统的性能,例如自动驾驶、视觉导航[4]等。因此,低光图像增强是非常期望的。在过去几十年中,已经有大量方法用于增强在光照不足条件下捕获的退化图像。这些方法在提高图像对比度方面取得了很大进展,并能够获得视觉质量更好的增强图像。
低光图像的另一个特殊退化是噪声。许多方法利用额外的去噪方法作为预处理或后处理。然而,将去噪方法用作预处理会导致图像模糊,而将去噪作为后处理则会导致噪声放大[5]。最近,一些方法[6]设计了有效的模型,可以同时进行去噪和对比度增强,获得令人满意的结果。
值得注意的是,以前的许多方法都侧重于利用图像的空间域信息进行增强,频域图像处理也是图像增强领域的重要方法之一。高频信息通常代表图像细节(如轮廓和边缘)或噪声,因此我们提出了一种新的用于微光图像增强的Reallow-to-Real normal网络,称为R2RNet,它利用空间和频率信息来获得高视觉质量的增强图像。我们的网络设计基于Retinex理论[7],该理论包括三个子网:Decom Net、Denoise Net和Relight Net。Decom Net的目的是在Retinex理论的指导下,将输入的微光图像分解为照度图和反射率图。Denoise Net将分解结果作为输入,并使用照明图作为约束来抑制反射率中的噪声,以获得具有更好视觉质量的分解结果。通过Decom Net获得的照度图和通过Denoise Net获得的反射率图被发送到RelightNet,以提高图像的对比度和亮度。在Decom-Net和Denoise-Net中,我们只利用了弱光图像的空间信息,因为DecomNet的目的是将输入图像分解为照度图和反射率图,而不需要任何进一步的处理。根据 Retinex 理论,反射率图包含图像的固有属性,因此,如果在去噪网络(Denoise-Net)中使用频率信息来抑制噪声,可能会同时抑制反射率图的细节。因此,我们在分解网络(Decom-Net)和去噪网络(Denoise-Net)中不使用频率信息,而是利用图像的空间信息来改善图像对比度,并基于快速傅里叶变换提取图像的频率信息,以更好地保留图像细节在重照网络(Relight-Net)中。通过精心设计的网络,我们的方法能够适当增强图像对比度,保留更多图像细节,并抑制噪声。此外,在低光条件下,使用我们方法获得的增强结果可以有效提高高级视觉任务的性能。
微光图像增强任务的另一个难点是,基于学习的模型需要大量数据进行训练,而模型的能力通常与训练数据的质量密切相关。然而,很难收集足够的真实世界数据,尤其是对于成对的图像。大多数基于学习的增强方法使用合成数据集进行训练,这限制了它们在真实世界场景中的泛化能力。据我们所知,现有的真实世界微光图像数据集只有LOL数据集[8]和SID数据集[9],但这两个数据集中包含的图像数量无法满足深度神经网络的训练要求。因此,我们收集了第一个大规模真实世界配对的低/正常光图像数据集,名为LSRW数据集,用于我们的网络训练。
本文的其余部分组织如下。第二节简要回顾了微光增强方法、图像去噪方法和微光图像数据集的相关工作。第三节介绍了所提出的R2RNet的体系结构和损失函数设置。第四节介绍了实验结果,第五节提供了一些结论性意见。
II. RELATED WORK
A. Low-light Image Enhancement methods
在过去的几十年里,已经有了广泛的方法来增强弱照明图像的对比度。传统的方法主要基于直方图均衡和Retinex理论。直方图均衡是一种简单但有效的图像增强技术,它通过改变图像的直方图来增强对比度,如保持亮度的bi-HE[10]。Retinex理论假设人类观察到的彩色图像可以分解为照度图和反射率图,其中反射率图是图像的固有属性,不能改变。增强对比度的目的可以通过改变照明图中像素的动态范围来实现。MSRR[11]利用基于Retinex理论的多尺度高斯滤波器来恢复颜色。SRIE[12]提出了一种加权变分模型来同时估计反射率和照度。MF[13]试图提高照明图的局部对比度并保持自然度。BIMEF[14]使用双姿态算法进行图像增强。除了照明图和反射率图,Mading等人[15]添加了噪声图以形成用于进一步增强和去噪的鲁棒Retinex模型。LIME[16]首先通过先验假设估计照度,通过加权振动模型获得估计照度,随后使用BM3D[17]作为后处理。最近,刘等人[18]提出了一种受Retinex启发的架构搜索展开(RUAS),并设计了一种合作的无参考学习策略,以从紧凑的搜索空间中发现低光先验架构。深度学习在计算机视觉领域得到了广泛的应用,并取得了良好的效果。许多优秀的方法,如CNN、GAN等,在各种低级视觉任务中取得了显著的成就,包括图像去雾[19]、[20]、图像超分辨率[21]、[22]等。许多研究人员还基于Retinex理论建立了基于学习的模型。MSR-Net[23]利用不同的高斯卷积核来学习低光/正常光图像的映射。RetinexNet[8]将Retinex理论与DeepCNN相结合,对光照图进行估计和调整,实现图像对比度增强,并使用BM3D进行后处理,实现去噪。张等人[24]还设计了一种基于Retinex理论的有效网络来增强弱光图像。Lim等人[25]提出了一种深度堆叠拉普拉斯恢复器(DSLR),用于从原始输入中恢复全局照明和局部细节。此外,还提出了一些不基于Retinex理论的方法。董等人[21]提出了一种算法,该算法通过使用去雾方法来提高黑暗区域的对比度并提高视觉质量。Ying等人[26]将相机响应模型用于弱照明图像增强。Lore等人[27]提出了一种用于图像对比度增强和去噪的堆叠稀疏去噪自动编码器。Ziaur等人[28]在获得初始传输图之前使用明亮通道,并采用L1范数正则化来细化场景传输。郭等人[2]提出了一种轻量级网络Zero DCE,将图像增强问题转化为曲线估计问题。姜等人[1]提出了一种基于GAN的微光图像增强网络,并首次使用未配对的图像进行训练。
基于Retinex的方法的关键是对照明图和反射率图的估计。由于分解能力有限,传统方法往往会导致增强效果过大/不足。基于学习的方法可以获得更好的分解结果,并可以适当地提高对比度。值得注意的是,大多数基于学习的方法只关注利用弱照明图像的空间信息来获得高质量的正常光图像,而将空间和频域信息相结合来进行微光图像增强可以获得更令人满意的增强结果。因此,我们的R2RNet使用图像的空间和频率信息进行增强。空间信息用于对比度增强,频率信息用于恢复更多的图像细节。
B. Denoising methods
除了对比度增强之外,增强弱照明图像还需要噪声抑制。传统的图像去噪方法依赖于手工制作的特征,并使用离散余弦变换或小波变换来修改变换系数。NLM[29]和BM3D使用自相似补丁在图像保真度和视觉质量方面取得了卓越的效果。基于监督学习的图像去噪方法,如DnCNN-B[30]、FFDNet[31]和CBDNet[32],利用高斯混合模型进行去噪。梅等人[33]充分利用浅像素级特征和自相似性,实现像素特征和语义特征之间的平衡,以保留更多细节。Kim等人[34]提出了CBAM,以专注于学习噪声图像和清晰图像之间的差异。Chen等人[35]使用GAN对从真实噪声图像中提取的噪声信息进行建模,并将生成器生成的噪声块与原始清晰图像相结合,合成新的噪声图像。ADGAN[36]提出了一种特征金字塔注意力网络,以提高对噪声建模时网络特征提取的能力。
这些方法可以获得令人印象深刻的去噪效果。然而,直接使用这些方法作为微光图像增强方法的预处理或后处理会导致模糊或噪声放大。为了避免这种情况,我们的方法可以同时进行对比度增强和去噪。
C. Low-light Image Datasets
微光图像增强任务的另一个困难是,基于学习的模型通常需要大量数据,但很难收集足够的微光图像。由于缺乏真实世界的配对图像,大多数方法使用基于正常光图像的合成图像。Lore等人[27]对每个通道应用伽马校正来合成微光图像。Lv等人[37]使用了与LLNet相同的图像合成策略。Lv等人[38]和Wang等人[39]将线性变换和伽玛变换相结合以获得配对图像。王等人[40]通过使用相机响应函数并对微光图像中的噪声分布进行建模来获得合成图像。
据我们所知,现有的真实世界微光图像数据集只有LOL数据集和SID数据集,它们都通过固定相机位置和改变ISO和曝光时间来捕捉成对的微光/常光图像。LOL数据集包含500个低光/正常光图像对。SID数据集包含5094张短曝光图像和424张长曝光图像;多个短曝光图像对应于一个长曝光图像。然而,上述两个数据集中包含的图像数量无法支持DeepCNN的训练,SID数据集主要适用于极弱照明的图像增强,这与我们关注的不同。为了满足我们网络的训练要求,我们使用尼康D7500相机和华为P40 Pro手机收集真实世界的配对图像,形成我们的LSRW数据集。
III. LSRW DATASET
微光图像增强任务中的困难之一是缺乏在真实场景中捕获的成对的微光/正常光图像。现有的真实世界配对图像数据集仅为LOL数据集和SID数据集,SID主要适用于极低光图像增强,这与我们的担忧不一致。为了满足DeepCNN的训练要求并为后续研究提供支持,我们提出了第一个大规模的真实世界配对图像数据集,命名为LSRW数据集。LSRW数据集包含由尼康D7500相机和华为P40 Pro手机拍摄的5650张配对图像。我们使用尼康相机收集了3170张配对图像,使用华为手机收集了2480张配对图片。
可以通过降低ISO并使用较短的曝光时间来减少光输入量来获得低光图像,而可以通过使用较大的ISO和较长的曝光时间获得正常光图像。我们选择收集室内和室外场景的LSRW数据集。在室内场景中获取低光图像时,会增加曝光时间,以避免捕捉到极暗的图像。类似地,当在室外场景中获得正常光照图像时,将减少曝光时间,以避免拍摄过度曝光的图像。低光照条件的ISO值固定为50,正常光照条件固定为100。我们可以通过改变曝光时间来获得成对的低光/正常光图像。请注意,在减少曝光时间时,如果有移动物体或相机/手机抖动,低光图像将变得模糊。因此,为了避免相机/手机抖动,我们使用三脚架固定相机/手机的位置,并通过远程控制调整ISO和曝光时间。同时,我们选择的场景是静态的,没有任何运动物体,这可以确保拍摄到的低光图像不会模糊。低光照条件的ISO值固定为50,正常光照条件固定为100。当使用尼康获得低光图像时,曝光时间被限制为1/200到1/80,而正常光图像的曝光时间被限于1/80到1/20。当使用华为获得低光图像时,曝光时间限制在1/400到1/100,而普通光图像的曝光时间限制为1/100到1/15。我们从LSRW数据集中选择了5600对配对图像进行训练,其余50对进行评估。表I总结了LSRW数据集。图2显示了LSRW数据集中的几个图像对,包括室内和室外场景。
IV. METHOD
A. Network Architecture
我们提出了一种新的深度卷积神经网络,称为R2RNet,它由三个子网组成:DecomNet、Denoise Net和Relight Net。Decom Net基于Retinex理论将输入的弱照明图像分解为照明图和反射率图。去噪网将分解后的结果作为输入,并使用照明图作为约束来抑制反射率图中的噪声。随后,通过Decom Net获得的照明图和通过Denoise Net获得的反射率图被发送到Relight Net,以获得具有更好视觉质量的正常光图像。因此,我们的方法可以提高对比度,保留更多的细节,同时抑制噪声。R2RNet的网络架构如图3所示。详细说明如下
Decom-Net:基于Retinex的方法的关键是获得高质量的光照图和反射率图,分解结果的质量也会影响后续的增强和去噪过程。因此,设计一个有效的网络来分解弱照明图像是很重要的。残差网络[41]已被广泛应用于许多计算机视觉任务,并取得了良好的效果。得益于跳跃连接结构,残差网络可以使深度神经网络在训练阶段更容易优化,而不会导致梯度消失或爆炸。受此启发,我们在DecomNet中使用多个残差模块(RM)来获得更好的分解结果。每个RM包含5个卷积层,核大小为{1,3,3,1},核的数量分别为{64,128,256,128,64}。我们在快捷连接处添加了一个64×1×1的卷积层。在每个RM前后还有一个64×3×3的卷积层。
Decom-Net每次获取成对的低光/正常光图像(Slow和Snormal),并在低光图像和正常光图像共享相同反射率图的指导下学习低光图像及其对应的正常光图像的分解。在训练过程中,无需提供反射率和照明。只有必要的知识,包括反射率的一致性和照明图的平滑度作为损失函数嵌入到网络中。注意,正常光照图像的照度图和反射率图不参与后续训练,仅为分解提供参考。
Denoise-Net: 大多数传统方法和以前基于Retinex理论的学习方法在获得分解结果后都没有考虑噪声,这会导致最终的增强结果受到反射图中噪声的影响。最近,研究人员设计了有效的模型,可以抑制噪声,同时增强微光图像的对比度。受此启发,我们还设计了一个去噪网来抑制反射率图中的噪声。与大多数基于学习的方法类似,我们的去噪网只使用图像的空间信息,因为通过抑制反射率图中的高频信号来消除噪声可能会导致固有细节的损失。
U-Net[42]由于其出色的结构设计,在大量的计算机视觉任务中取得了优异的效果。在微光图像增强领域,大量网络都采用U-Net作为主要架构或其一部分。Chen等人[9]直接使用U-Net对图像进行增强,而不对网络进行任何修改,并取得了良好的效果。受残差网络的启发,Res-UNet[43]为U-Net的每个子模块替换了一个具有残差连接的模块。然而,U-Net和Res-UNet在特征提取阶段使用了多个最大池层,最大池层会导致特征信息的丢失,这是我们不希望的。受[44]的启发,我们将最大池化层替换为步长卷积层,这将略微增加网络参数,但提高性能。U-Net和Res-UNet都属于“浅宽”架构,Li等人[45]证明了“深窄”架构更有效,因此我们用RM代替UNet的每个子模块来构建“深窄的”Res-UNet,本文将其命名为DN-ResUnet。去噪网中使用的RM与Decom网中的RM略有不同,除了最后一个1×1卷积层外,卷积的数量保持在128个而没有增加。此外,我们在网络的前两层使用扩张卷积来提取更多的特征信息。如图5所示,我们的去噪网获得的照明图在抑制噪声的同时保留了原始图像的细节。
Relight-Net:在得到分解结果后,有必要提高照明图的对比度,以获得高视觉质量的结果,这是RelightNet设计的目的。受在其他图像恢复任务中结合空间和频率信息以恢复高质量清晰图像的有效性[46]的启发,我们的RelightNet由两个模块组成:对比度增强模块(CEM)和细节重建模块(DRM)。CEM使用空间信息进行对比度增强,其架构类似于去噪网,我们还利用多尺度融合,在扩展路径中连接每个去卷积层的输出,以减少特征信息的损失. DRM基于傅立叶提取频率信息转换以恢复更多详细信息。傅立叶变换旨在获得信号在频域中的分布。数字图像也是一种信号,傅立叶变换可以将图像从空间域变换到频域,逆傅立叶变换可以使图像从频域变换到空间域。因此,我们可以通过傅立叶变换得到图像的光谱信息。高频信号表示图像中的强烈变化内容,即细节或噪声,低频信号表示不频繁变化的平滑变化内容,例如背景。我们可以通过增强图像中的高频信号来恢复更多细节,从而从退化的图像中恢复清晰的图像。
原始的傅立叶变换是耗时的,所以我们在本文中使用快速傅立叶变换。经过傅立叶变换后,我们将得到一个与原始图像大小相同的矩阵。矩阵中的点描述图像的频域信息。每个点都是一个复数A+jB,其模量√A2+B2描述振幅,其方向arctanBA描述相位角。如果我们想利用图像的频域信息来实现细节重建,我们需要对获得的复矩阵进行处理。Chiheb等人[47]提出了关键的原子成分,复杂卷积、复杂批量归一化和复值激活,以形成复值深度神经网络,并在许多计算机视觉任务和音频相关任务中实现最先进的性能。复数卷积将复数滤波器矩阵W=A+jB与复值向量h=x+jy卷积,其中a和B是实值矩阵,x和y是实值向量。在用滤波器W对向量h进行卷积后,我们可以得到W*h=(A*x−B*y)+ i(B*x A*y)。并且复数Relu(CRelu)在神经元的实部和虚部上使用单独的Relu,即CRelu(W)=Relu(a)+ iReLU(B)。因此,我们选择了复数卷积和CRelu来形成我们的DRM.所以我们可以在频域中对幅度和相位信息进行aggregate。
我们的DRM由两个空间-频率-空间转换块(SFSC块)和一个频率信息处理块(FIP块)组成。SFSC块旨在对频域和空间域信息流进行聚合。SFSC块首先通过使用第一Resblock来处理空间域中的特征,并且通过使用快速傅立叶变换将输出特征转换到频域中。随后,complexResblock被用于处理频域信息,并最终使用傅立叶逆变换将频域信息转换到空间域,这可以最大限度地提高空间域和频域中的信息交换。FIP块用于模拟高通滤波器,增强图像边缘轮廓,实现细节重建。FIP块的输入包含特征级和图像级频率信号,以减少由空间域和频域信息之间的转换引起的信息损失。特征电平信号表示SFSC块的输出,并且可以通过基于快速傅立叶变换将输入图像直接映射到频域来获得图像电平信号。CEM和DRM的输出将被组合为增强照明图。注意,DRM和CEM的输出通道数为64,因此我们添加了一个3×3卷积层和一个1×1卷积层来降维。RelightNet的体系结构如图4所示。
Relight Net的输入是由Decom Net获得的照明图(Ilow)和由Denoise Net获得的反射率图(),输出是增强照明图()。最后,通过逐元素相乘将去噪反射率和增强的照明度组合为最终结果,其可以描述为:
我们的方法得到的分解结果如图5所示。DenoiseNet获得的反射率图在抑制噪声的同时保留了原始图像的细节,RelightNet适当地提高了照明图的对比度并保留了更多的细节
B. Loss Function
在训练阶段,三个子网分别进行训练,因此整个损失函数由三部分组成:分解损失LDc、去噪损失LDn和重新照明损失LRe。每个损失都包含两个部分: 内容损失与感知损失
分解损失:我们的分解损失包括两部分:内容损失LDc−con和感知损失LDc–per。我们使用L1损失作为内容损失,
并且我们基于从VGG-16预训练模型中提取的特征来计算感知损失,并且与以前的方法相比,我们在激活层之前而不是之后采用特性,
去噪损失:与分解损失类似,去噪损失包含两部分:内容损失LDn−con和感知损失LDn–per。我们还采用L1损耗作为内容损失,
此外,由于我们使用了Relight Net中的频率信息,我们提出了一种新的频率损耗来帮助Relight Net恢复更多细节。通过快速傅立叶变换将增强图像和锐化图像转换到频域,并利用Wasserstein距离来最小化增强结果的实部和虚部与频域中的地面实况之间的差异。频率损耗公式为:
V. EXPERIMENTS
A. Implementation Details
我们的实现是用PyTorch完成的。所提出的网络在1080Ti GPU上用我们的LSRW数据集训练了20个时期后,可以快速收敛。我们使用Adam[49]优化器,lr=10−3,β1=0.9,β2=0.999。批量大小和补丁大小分别设置为4和96。我们还使用了学习率衰减策略,在10个时期后将学习率降低到10−4。将等式2中的λ1和λ2设置为0.01,将等式4中的λ3、等式7中的λ4和等式11中的λ5设置为0.1,将等式11中的λ6设置为0.01。有关我们网络的更多实现细节,请参阅我们即将发布的代码。
B. Comparison with State-of-the-Arts on the Real Datasets
我们在六个公开可用的数据集上,包括LOL、LIME、DICM[50]、NPE[51]、MEF[52]和VV1,将所提出的方法与现有的现有技术方法(MF、Dong、NPE、SRIE、BIMEF、MSRRR、LIME,RetinexNet、DSLR、MBLLEN、EnlightenGAN和Zero DCE)进行了比较。为了进行公平的比较,我们使用了这些方法的发布代码,没有任何修改,并使用我们的LSRW数据集来训练基于监督学习的方法,包括Retinexnet、MBLLEN和DSLR。由于Zero DCE和EnlightenGAN使用未配对的数据进行训练,我们使用他们发布的预训练模型进行比较。LOL数据集通过改变相机的曝光时间和ISO捕获了500对真实的低光/正常光图像。这是用于微光图像增强的唯一现有的真实微光/正常光图像数据集(SID数据集用于极微光图像增强)。结果如表二所示。可以看出,我们的方法在LOL数据集上的PSNR和SSIM都优于现有技术,所提出的R2RNet实现了最佳性能,平均PSNR得分为20.207dB,SSIM得分为0.816,在PSNR上超过第二好方法(MBLLEN)1.347dB(20.207-18.860),在SSIM上超过0.062(0.816-0.754)。视觉对比如图6所示。可以看出,一些传统方法(如SRIE、NPE)会导致增强不足的结果,而其他基于Retinex理论的方法(如LIME、RetinexNet)会模糊细节或放大噪声。我们的方法生成的增强结果不仅可以提高局部和全局对比度,具有更清晰的细节,而且可以很好的抑制噪声,这表明我们的方法可以同时增强图像对比度和抑制噪声。请放大以比较更多详细信息。LIME、DICM、NPE、MEF、VV通常被用作微光图像增强方法评估的基准数据集,这些数据集只包含微光图像,因此PSNR和SSIM不能用于定量评估。因此,我们使用非参考图像质量评估NIQE来评估我们的方法的性能。结果如表III所示。一些视觉比较如图7所示。请放大以比较更多详细信息。
C. User Study
我们进行了一项用户研究,以比较我们的方法和其他方法的性能。我们在真实世界场景中收集了20张额外的微光图像供用户研究,并邀请10名参与者评估使用五种不同方法(NPE、LIME、EnlightenGAN、MBLLEN和Our方法)获得的真实微光图像的增强结果。参与者应该考虑对比度、伪影、噪声,细节和颜色,并根据增强图像的性能对其进行评级(从1到5,1表示最好,5表示最差)。图8显示了分数的分布,我们的方法得到了最好的结果,这表明我们的方法获得的增强图像在视觉上更令人满意。
D. Ablation Study
在本节中,我们基于LOL数据集定量评估了模型中不同成分的有效性和损失函数设置。结果如表IV所示。
CEM和DRM的有效性:我们通过分别删除CEM和DRM来构建我们的RelightNet,来评估对比度增强模块(CEM)和细节重建模块(DRM)在RelightNet中的有效性。删除CEM或DRM将显著降低我们模型的性能。如表IV所示,实验结果表明,将空间和频率信息结合可以获得比单独使用频率信息更好的性能。
深窄架构的有效性:我们评估DN ResUnet的有效性,并将其与相应的“浅宽”ResUnet进行比较。我们用ResUnet替代 DN-ResUNet结构,我们提出的DN ResUnet在PSNR上超过了ResUnet 0.971dB(=20.207-19.236),在SSIM上超过了ResUnet 0.011(=0.816-0.805)。结果表明,我们的默认体系结构将带来更好的性能。
损失函数设置:为了探索损失函数设置的有效性,我们分别通过将内容损失转换为MSE损失、去除感知损失和去除频率损失来进行实验。使用L1损耗超过MSE损耗,PSNR上为0.676dB(=20.20719.531),SSIM上为0.012(=0.816-0.804)。去除感知损耗和频率损耗将导致性能下降。去除感知损失后,PSNR下降0.868db(=20.207-19.339),SSIM下降0.043(=0.816-0.73)。去除频率损耗后,PSNR下降0.451db(=20.207-19.756),SSIM下降0.012(=0.8160.804)。实验结果验证了我们设置损耗函数的合理性。
E. Pre-Processing for Improving Face Detection
图像增强作为改善后续高级视觉任务的预处理,最近受到了越来越多的关注[53],[54]。我们研究了光增强对DARK FACE数据集2的影响,该数据集专门用于在弱光条件下进行人脸检测。DARK FACE数据集由6100张夜间拍摄的真实世界微光图像组成,包括训练/验证集中的6000张图像和测试集中的100张图像。由于测试集中没有相应的标签,我们从训练集中随机选择100张图像进行评估,将我们的R2RNet作为预处理步骤,然后是两种最先进的预训练人脸检测方法:RetinaFace[55]和DSFD[56]。使用R2RNet作为预处理,增强后的平均精度(AP)从17.12%(DSFD微光图像)和15.28%(RetinaFace微光图像)分别提高到33.98%(DSFD R2RNet)和25.97%(Retina Face R2RNet。我们还使用EnlightenGAN和MBLLEN进行了实验。EnlightenGAN将AP分别提高到32.75%和23.44%,MBLLEN将AP分别提升到31.69%和24.67%。人脸检测结果示例如图9所示。
VI. CONCLUSION
在本研究中,我们基于Retinex理论提出了一种新的用于微光图像增强的真实低到真实网络,该网络包括三个子网络:Decom Net、Denoise Net和Relight Net。通过我们的方法获得的增强结果具有更好的视觉质量。与以前的方法不同,我们收集了第一个用于网络训练的大规模真实世界配对低/正常光图像数据集,称为LSRW数据集。结果在公开的数据集中,我们的方法可以适当地提高图像对比度和抑制噪声,并获得最高的PSNR和SSIM分数,这在很大程度上优于最先进的方法。我们还表明,我们的R2RNet可以有效地提高低光照条件下人脸检测方法的性能。