关注公众号,发现CV技术之美
本篇分享 ECCV 2024 论文GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval
,GLARE 利用外部正常光照先验,实现逼真的低光照增强效果!


论文链接:https://arxiv.org/pdf/2407.12431
Github链接:https://github.com/LowLevelAI/GLARE
亮点直击
首次采用外部正常光码本作为指导,去自然地增强低光照图像。
提出一种名为GLARE的新型低光照图像增强器,利用潜在归一化流来学习低光照图像特征分布,使其与自然光图像特征对齐。
提出一种具有可调功能的自适应特征变换模块,以在保证输出自然性的同时巩固保真度。
大量实验证明,GLARE在5个配对基准和4个真实世界数据集上的低光照图像增强任务中显著优于现有的最先进方法,并且作为高层次目标检测任务的预处理方法时,GLARE也具有很强的竞争力。
本文提出一种新型的基于生成式隐层特征的码本检索的低光照增强网络,命名为GLARE。其中码本先验是使用矢量量化(VQ)策略从未受损的正常光图像中提取的。
更重要的是,我们开发了一种生成式可逆的隐层归一化流模块,将低光照图像的特征分布对齐到正常光图像的隐层表征,从而保证了在码本中正确的代码检索。
为了保留由码本先验提供的真实细节的同时进一步提高保真度,我们设计了一种新颖的自适应特征变换模块。该模块包括一个自适应特征混合环节和一个双解码器结构,并具备用户调节功能。
大量实验证明GLARE在多个基准数据集和真实数据上的卓越性能,以及GLARE在低光照目标检测任务中的有效性进一步验证了其在高层次视觉应用中的适用性。
方法
除了引入外部自然光码本来指导低光到正常光的映射外,本文工作的创新之处还在于独特的可逆潜在归一化流和自适应特征变换模块。这些模块旨在最大限度地发挥自然光码本先验的潜力,并生成具有高保真度的逼真结果。
本文提出的方法的概览如图3所示,其中我们方法的训练可以分为三个阶段。
在第一阶段,在数千张清晰的自然光图像上预训练VQGAN,以构建一个全面的码书。
在第二阶段,利用低光照-正常光照图像对训练I-LNF模块,实现低光照和正常光照特征之间的分布变换。
在最后阶段,提出AFT模块(包含固定的自然光解码器、自适应混合块和多尺度融合解码器),用于保留码本所提供的自然性的同时增强细粒度细节。

阶段I:正常光码本学习
为了学习一个通用且全面的码本先验,我们利用了一个结构类似于[15]的VQGAN。具体来说,一个自然光图像 首先被编码并重塑为隐层表征 ,其中 ,, 和 分别表示图像宽度、图像高度、隐层特征的维度和隐层特征的总数; 是自然光编码器的下采样因子。每个潜在向量 可以使用最近邻匹配量化为对应的代码 , 公式如下:

其中 表示包含 个离散码的可学习码本,每个码由 表示。随后,量化后的码 被传送到自然光解码器 (记作 ) 以生成重建的图像 。
为了更好地展示正常光码本先验的优势和局限性,本文在低光照-正常光图像对上微调了预训练的VQGAN编码器。具体来说,本文在图2b的第2列中展示了增强后的结果,并使用t-SNE可视化了由微调后的自然光编码器生成的低光照图像特征(见图2a),这证明了外部自然光先验在低光照图像增强中的有效性。此外,这些可视化结果启发作者设计额外的网络来对齐低光照特征和正常光隐层表征,以进一步提高增强性能。

阶段II:生成式隐层特征学习
为了充分利用外部码本先验的潜力,本文从减少低光照和正常光照特征分布差异的角度设计了额外的机制。具体来说,本文开发了一种可逆潜在归一化流,以实现低光照和正常光照特征分布之间的转换,从而实现更准确的码本检索。
如图3所示,本文在第二阶段优化了两个关键组件:条件编码器和可逆归一化流模块。
1)条件编码器 :其结构与自然光编码器 相同,输入一个低光图像并输出条件特征 。
2)本工作中的可逆归一化流模块通过一个可逆网络实现,表示为 。该模块利用 作为条件,将复杂的自然光特征分布 转换为一个潜在特征,即 。第二阶段训练的重点是获得 一个在 空间中的简化分布 ,例如高斯分布。因此,条件分布 [45] 可以隐式表示为:

与传统的归一化流方法 [25, 45, 61, 68] 不同,本文在特征层面而不是图像空间独特地应用了归一化流,并且本文的设计中没有集成任何压缩层。此外,本文提出使用由卷积层基于 生成的低光照特征 作为 的均值,而不是使用标准高斯分布作为 的分布。
公式(2)中的条件分布使得可以通过最小化公式(3)中的负对数似然来训练条件编码器和可逆归一化流模块。此外,可以从 中采样 并使用完全可逆的网络 得到低光照输入的高质量特征 。

第二阶段训练完成后,本文在LOL数据集[65]上评估了提出的模型,以验证可逆归一化流模块的有效性。如图2a所示,由可逆归一化流模块生成的低光照特征分布与正常光照特征分布高度一致,促进了准确的码本组装。此外,令人满意的增强结果(图2b,第3列)表明本文提出的方法在第二阶段后,已经具备良好的低光照图像增强性能。然而,这些结果仍然有很大的改进空间,特别是在保真度方面。例如,颜色(图2b,第1行)或结构细节(图2b,第2行)与真实值有显著差异。这一观察促使作者将输入信息融入解码过程中,以提高保真度。
阶段III:自适应特征融合
为了进一步增强纹理细节和保真度,本文提出了一种自适应特征变换模块,该模块灵活地将条件编码器生成的特征 融入解码过程中,其中 表示分辨率级别。具体来说,为了保持正常光解码器(NLD)的真实输出并避免受损的低光照特征的影响,本文采用了双解码器架构,并参考[20, 66]开发了多尺度融合解码器(MFD)。双解码器设计使本文如方程4所示,能够利用可变形卷积()来对NLD特征()进行变形处理,并将变形后的特征 输入多尺度融合解码得到最终的增强结果。

其中 和 分别表示分辨率级别和目标特征本文设计了一种新颖的特征融合网络,该网络自适应地将低光照信息融入上述变形操作,并在实际测试中为用户提供潜在的调整功能。
自适应混合块多尺度融合解码器(MFD)在结构上与正常光解码器(NLD)相似,旨在解码生成的低光照特征 并获得中间层表征 , 其中 表示分辨率级别。在每个分辨率级别,来自条件编码器信息 被添加到相应的 中,以引入更多的低光照信息。不同于常规的特征融合操作,本文使用了一种自适应混合策略,如下所示:

其中 表示可学习系数,表示Sigmoid运算符, 用于实际测试中的调整,训练时设置为1。
灵活调整功能尽管公式(5)中 在训练阶段被设置为1,但在测试真实世界图像时,用户可以根据个人偏好灵活调整。这种设计的灵感来自于许多现有方法在处理真实世界数据时通常表现不佳,造成这一现象的原因是因为真实世界数据中的光照情况通常与训练阶段使用的图像有所不同。
实验
与现有方法的比较
比较的方法:包括 KinD, MIRNet, DRBN, SNR, Restormer, Retformer, MRQ, LLFlow, LL-SKF等
数据集:LOL,LOL-v2-real,LOL-v2-synthetic,SDSD-indoor, SDSD-outdoor,分别在这些数据集的训练数据上训练,在相应测试集上评估。
跨数据集验证:在LOL训练集上训练,在真实世界数据集: MEF,LIME,DICM 和 NPE 上测试。
定量比较如表1所示 GLARE在五个基准数据集上优于当前最先进的方法。本文提出的GLARE在PSNR上表现出色,在LOL和LOL-v2-synthetic数据集上分别超过LL-SKF 0.55 dB和0.74 dB。此外,在SDSD-indoor和SDSD-outdoor数据集上,它比Retformer分别提高了0.33 dB和1.01 dB。
另外,GLARE的LPIPS在表1中分别超过了第二名20.9%和12.6%,这表明本文提出的方法的增强结果与人类视觉系统更为一致。表2展示了在非配对的真实世界数据集上的跨数据集评估结果。本文首先在LOL训练集上训练GLARE。然后,将在LOL测试数据上表现最佳的模型应用在四个非配对真实世界数据集上。
与当前最先进的方法相比,GLARE在DICM和MEF数据集上表现优越,并在平均表现上达到最佳。这些结果不仅证明了本文方法在生成高质量视觉结果方面的优越性,也展示了其良好的泛化能力。


定性比较图4、图5和图6展示了本文提出的GLARE与其他方法的视觉对比结果。显然,以往的方法在噪声抑制方面表现较差。此外,它们还往往会产生明显的色彩失真(参见图4中的KinD、LLFlow、Retformer、LL-SKF的增强结果,以及图5中的SNR和LLFlow)。
此外,从定性比较来看,可以看到LLFlow、LL-SKF和Retformer在其增强结果中可能会导致细节缺失(参见图4和图5),而图4中的KinD和图5中的SNR由于引入了不自然的伪影而表现不佳。
相比之下,GLARE能够有效增强低光照图像,同时可靠地保留色彩和纹理细节。图6中在非配对真实世界数据集上的视觉比较也展示了本文提出的GLARE在细节恢复和色彩保持方面的优势。


低光照物体检测
在ExDark数据集上进行实验该数据集收集了7,363张低光图像,分为12个类别,并附有边界框注释,旨在研究低光图像增强(LLIE)方法作为预处理步骤在改善低光物体检测任务中的有效性。本文使用在LOL数据集上训练的不同的LLIE模型来增强ExDark数据集内图片,然后对增强后的图像进行目标检测。
本文采用的目标检测器是预先在COCO数据集上训练的YOLOv3,并使用计算平均精度(AP)和平均的AP(mAP)作为评估指标。
表3 提供了本文方法GLARE 与其他方法的定量比较结果。与KinD、MBLLEN、LLFlow和LL-SKF相比,本文提出的GLARE在mAP方面至少提高了0.8分。
更重要的是,GLARE也优于在低光照目标检测中表现突出的IAT方法。图9展示了各个LLIE方法低光目标检测上的视觉比较结果。可以看出,尽管每种LLIE方法在一定程度上提高了图像的可见度,但本文方法GLARE实现了最佳的视觉表现,从而对下游的检测任务最有利。
不出所料,GLARE的增强效果使得YOLO-v3检测器能够以更高的置信度识别更多的目标。


消融实验
为了验证GLARE每个组件的有效性并证明用于训练的优化目标的合理性,本节在LOL数据集上进行了广泛的消融实验。具体来说,本节讨论了自适应特征融合模块、可逆归一化流模块和正常光码本先验的重要性。
自适应特征融合模块从GLARE中移除自适应特征融合模块,可以得到一个简单的低光图像增强模型,称为SimGLARE。基本上,SimGLARE仅利用自然光码本先验中的信息而不进行特征变换。SimGLARE的定量结果如表4所示。在PSNR、SSIM和LPIPS方面,SimGLARE在低光照图像增强任务中相当具有竞争力(与表1中的SOTA方法相比)。
然而,借助提出的自适应特征融合模块,本文提出的GLARE在定量指标和视觉结果上均取得了进一步的改进(如图7所示)。此外,表4中还检验了各种损失函数,显示了本文在第三阶段选择的损失函数是合理的。
本文还设计了两个变体,分别命名为Variant 1和Variant 2,以说明所提出的双解码器架构和自适应混合块的重要性。具体来说,Variant 1直接将低光照特征通过自适应混合块引入到正常光解码器(NLD),而Variant 2采用并行解码器策略,但用skip-connection操作[26]替换了自适应混合块。
通过比较表4中的(4)与(2)和(3),可以发现PSNR和SSIM与LPIPS呈负相关,这验证了本文提出的自适应混合块和双解码器设计的有效性。

可逆归一化流模块为了展示I-LNF和采用的NLL损失的重要性,本文基于SimGLARE进行了几种调整:(1)使用L1损失训练SimGLARE,以验证本文采用的NLL损失的有效性。(2)用一个结构上类似于[84]的Transformer模型取代可逆归一化流模块,直接预测码本中的码索引。(3)在(1)的基础上移除可逆归一化流模块,并在低光-正常光图像对上训练条件编码器。
定量结果如表5所示。通过比较(4)和(1),可以验证NLL损失的优越性。此外,比较图8中第二列和第三列的图像也表明,与L1损失相比,使用NLL损失可以产生更清晰的轮廓和边缘。
此外,与基于Transformer的码预测方法相比,本文提出的可逆归一化流模块可以帮助生成更好地与正常光特征对齐的低光特征,从而确保更准确的码匹配并实现更优的性能。
更重要的是,当从SimGLARE(L1)中移除可逆归一化流模块时,PSNR(降低1.16 dB)和SSIM(降低0.017)显著下降,这证明了本文提出的可逆归一化流模块的有效性。

自然光码本先验为了研究正常光码本先验的重要性,从SimGLARE(L1)移除了VQGAN中的码本和量化过程,得到一个名为Variant 3的模型,并使用类似于SimGLARE(L1)的策略进行训练。
定量结果如表6所示。缺少码本先验显著影响了性能,PSNR平均下降了2.0 dB,SSIM下降了0.024,这突显了码本先验在本文方法中的关键作用。

结论
本文提出了一种名为GLARE的低光图像增强(LLIE)新方法。鉴于LLIE的病态性质引起的不确定性和模糊性,本文利用从清晰、曝光良好的图像中使用VQGAN获得的正常光码本来指导低光到正常光的映射。为了更好地发挥码本先验的潜力,本文采用了可逆潜在归一化流来生成与正常光隐层表征对齐的低光照特征,从而最大限度地提高码向量在码本中正确匹配的概率。
最后,本文引入了具有双解码器架构的自适应特征变换模块,以灵活地在解码过程中提供输入信息,从而在保持感知质量的同时进一步提高增强结果的保真度。
大量实验表明,本文提出的GLARE在5个配对数据集和4个真实世界数据集上显著优于当前最先进的方法。GLARE在低光目标检测中的卓越性能使其成为高层次视觉任务中有效的预处理工具。
更多ECCV2024论文,请关注
Github:https://github.com/52CV/ECCV-2024-Papers
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「图像增强」交流群👇备注:增强