Global Structure-Aware Diffusion Process for Low-Light Image Enhancement

本文提出了一种新颖的基于扩散模型的方法,通过正则化ODE轨迹和结合全局结构感知,以提高图像重建性能。不确定性引导的正则化有助于处理极端低光区域。实验结果显示,这种方法在低光增强任务上优于现有技术,提升了图像质量和对比度。
摘要由CSDN通过智能技术生成

本文研究了一种基于扩散的框架来解决图像重建难题。 尽管当前的扩散模型在图像生成领域享有优势,但在图像重建方面仍然存在不足。 为了进一步提高扩散模型的重构性能,我们建议对固有的 ODE 轨迹进行正则化。观察到仅靠扩散模型的简单实现不足以有效解决这个问题,我们深入研究扩散过程并结合 全局结构感知正则化,利用图像数据固有的非局部结构成分,逐渐促进扩散过程中复杂细节的保存和对比度的增强。这种结合减轻了扩散产生的噪声和伪影的不利影响 过程,最终实现更精确和更有弹性的增强。为了进一步促进具有挑战性的区域的学习,我们引入了一种不确定性引导的正则化技术,该技术明智地放松了对图像最极端部分的限制。实验评估表明,所提出的基于扩散的方法 框架辅以基于排名的正则化,在弱光增强领域取得了卓越的性能。 结果表明,与 SOTA 技术相比,图像质量、噪声抑制和对比度放大方面取得了显着进步。 这种前卫的方法促进了低光图像处理的进一步探索和进步,并对扩散模型的其他应用产生了潜在的影响。

1 Introduction

低光图像增强(LLIE)旨在提高在弱光下捕获的图像的可见性和对比度,同时保留自然外观的细节,这有助于许多下游应用,例如对象检测[15,58]和语义分割[62,48]。

传统方法采用一些技术,比如直方图均衡化[28]、Retinex理论[6, 23]和伽马校正[29],来校正图像的光照。近年来,由于强大的表征能力和庞大的数据集,出现了大量基于深度学习的方法[53, 54, 63, 5, 21, 64, 43, 51, 40, 65],通过学习低光和正常光图像之间的映射,显著提升了低光增强的性能。一般来说,现有的大多数方法倾向于采用像素级的客观函数来优化确定性关系。因此,这种规则化往往会对不确定区域和局部结构产生次优重建,导致可见的重建质量较低。虽然对抗损失可能会缓解这个问题,但这些方法需要仔细调整训练,可能导致过度拟合特定特征或数据分布,甚至产生新的内容或伪影。

近来,流行的扩散去噪概率模型(DDPM)[7] 在低层次视觉领域[9, 32]引起了显著的关注,因其在对图像像素分布建模方面表现出色。然而,直接将扩散模型应用于低光图像增强是不足够解决这个问题的。

本文提出了一种新颖的基于扩散的方法,从正则化ODE轨迹的角度提升低光增强的性能。借鉴表明低曲率轨迹可能产生更优重建性能的证据[12],我们努力调节ODE轨迹的曲率。具体来说,我们通过逐渐挖掘图像数据的内在结构,将全局结构感知的正则化方案引入扩散框架。这种创新的约束促进了相似区域之间的结构一致性和内容连贯性,有助于实现更自然、更美观的图像增强,同时保留图像的细节和纹理。此外,我们设计了一种基于不确定性引导的正则化方法,将不确定性图集成到扩散过程中,促进对正则化强度的自适应调节。对一系列全面的基准数据集的实验结果一致表明,与最先进的方法相比,我们提出的方法具有优越的性能。彻底的消融研究强调了我们方法中全局结构感知的正则化和不确定性引导约束两个组成部分的重要性,揭示了它们对增强整体质量的协同作用。

2 Related work

Low-light image enhancement. 

早期的研究采用了一些传统技术,比如直方图均衡化[28, 36]、伽马校正[29]和Retinex理论[6, 23]来处理低光图像增强。一些研究人员还尝试通过使用额外的传感器[67, 66, 42, 41, 37, 17]来提高图像的可见性。近年来,随着低光数据收集的进步[11, 6, 45, 14, 54],出现了大量基于深度学习的方法[2, 60, 8, 50, 53, 54, 63, 5, 21, 64, 43, 51, 40],这些方法极大地提高了传统方法的恢复质量。例如,基于Retinex的深度学习方法[45, 60, 59, 47]利用深度学习将低光图像分解为两个较小的子空间,即照明和反射图。王等人[43]提出了一种基于正态化流的低光图像增强方法,该方法对正常曝光图像的分布进行建模。徐等人[51]将信噪比(SNR)先验纳入到空间变化的低光图像增强中。王等人[40]提出了一种基于Transformer的低光增强方法。我们建议阅读者参考[13],了解这个领域的全面回顾。

Diffusion-based image restoration. 

最近,基于扩散的生成模型[34]在去噪扩散概率模型(DDPM)[7, 24]的进展中取得了惊人的成果,使其在低层次视觉任务中越来越有影响力,比如图像超分辨率[9, 32]、图像修复[30, 19]、图像去雨[26]和图像去模糊[46]。Saharia等人[32]利用去噪扩散概率模型在扩散过程中对低分辨率图像进行条件建模,实现图像超分辨率。Lugmayr等人[19]提出了一种不依赖掩码的图像修复方法,利用预训练的无条件DDPM作为生成先验。Ozan等人[26]开发了一种基于补丁的扩散模型,用于天气去除,利用跨越重叠补丁的均值估计噪声引导的采样更新策略。这些模型基于扩散过程,在训练时将干净图像转换为带噪声的图像,然后在测试阶段通过逆向马尔可夫链生成新图像......

我们在LOLv1数据集的测试集上,对比了带有和不带有我们全局结构感知正则化的扩散模型的反向轨迹。我们的方法有效地压缩了多次取样的反向轨迹分布,产生了低曲率的反向轨迹,使它们稳定地接近真实值(GT)。

3 Proposed Method
3.1 Problem Statement and Overview

随着人们对在各种低光照环境下拍摄的高质量图像的需求不断增加,低光照图像增强是图像处理和计算机视觉领域的一个重要研究领域。在数学上,在低光条件下捕获的图像的劣化可以建模为

因此,低光图像增强,特别是在重建极端低光区域,是最重要的挑战,由于在这样的图像中的可用内容的稀缺性。最佳照明条件的内容依赖性进一步加剧了复杂性,需要灵活和自适应的解决方案。幸运的是,扩散模型以其在辅助图像或文本线索条件下合成图像的卓越能力而闻名,成为解决低光照图像增强难题的有利候选者。

 在这篇论文中,我们主张利用扩散模型内在的强大泛化能力来克服与低光图像增强相关的障碍。通过将低光图像(Y)作为条件输入融入到扩散模型中,我们可以获得低光增强扩散模型(ϵθ(Y,Xt, ¯αt))的一个朴素实现。尽管如此,这些初步模型取得的效果仍然不尽如人意。为了获得高质量的扩散过程,提出了各种战略,包括改变网络结构[31],采用数据增强技术[38],以及引入创新的损失条件[22]。其中,轨迹矫正作为一种有前景的策略崭露头角,通过对低曲率反向轨迹进行规范化,促进了一种无缝稳定的扩散过程[12, 18]。受到当前成功的鼓舞,我们尝试从以下两个不同的角度来增强这个初步模型。

1) Learning low curvature trajectories with global structure-aware regularization.为了学习低曲率的反向轨迹,我们提出了一种简单但有效的方法,即通过直接减小可学习样本在反向轨迹上与真实样本之间的差距。通过图1中相关的实验结果进一步阐明了这个过程。此外,值得注意的是,图像固有地包含着分布在不同位置的类似纹理或图案[1, 27, 3, 4, 49, 16, 56]。因此,培养一个能够巧妙捕捉这种全局结构的扩散过程对于低光图像重建的成功至关重要。通过在基于扩散的框架中整合基于矩阵秩的正则化,我们巧妙地利用了图像数据的内在结构,从而有助于保留微妙的细节并增强对比度。

尽管轨迹正则化的有效性,但在扩散模型的初始阶段推进它可能会无意中削弱样本的多样性和质量,这归因于大组件的明显波动。因此,为了提升我们模型的有效性,迫使我们需要构建一个逐渐适应的正则化计划变得至关重要

2) Adaptive regularization with uncertainty. 

此外,在低光增强任务领域,大多数当代损失函数平等对待所有像素,无论它们是处于轻微低光条件还是极端低亮度条件,是否受到噪声恶化或是没有噪声。因此,受到[25]的启发,我们在扩散过程中引入了一个基于不确定性引导的正则化,进一步改进了在具有挑战性区域的恢复学习。

这些策略性的引入确保了在困难的低光区域精确而有韧性地恢复图像细节,同时适应场景特定的光照变化。在接下来的部分,我们将详细介绍我们方法的技术细节。

3.2 Exploring Global Structures via Matrix Rank Modeling

去噪扩散概率模型展现出一种独特的学习方案,其中涉及在训练期间学习潜在噪声的分布。这个特性使得对于学习全局结构感知表示的网络参数θ进行正则化变得具有挑战性。为了解决这个问题,我们首先构建了一个可学习的封闭形式样本 Xt−1。随后,我们实施了另外两个步骤来增强这些图像中的内容感知正则化。

1) Constructing learnable closed-form samples.

Analysis of choosing rank-based global structure-aware regularization. 

为了最小化ODE轨迹的曲率,我们通过基于秩的全局结构感知正则化来弥合可学习的闭合形式轨迹样本Xt−1与GT X0之间的偏差。此外,需要指出的是,虽然传统的像素级正则化项,包括L1、L2和SSIM,确实对原始扩散模型进行了一定程度的增强,但它们的影响受到限制。这种限制源于它们不足以完全涵盖图像中的非局部结构和复杂图案。虽然特征域内的正则化有助于对给定图像的结构进行建模,但这种结构通常由于核感知区域的限制而局限在局部区域。此类正则化还不能明确表征结构的属性,缺乏理论指导。另一个重要的问题是,正则化特征可能导致反向传播梯度的显著波动,从而阻碍网络训练。最后,表4中的实证证据证实了我们基于秩的全局结构感知正则化的优越性。

3.3 Integrating Uncertainty into Diffusion Process

4 Experiments
4.1 Experiment Settings

数据集。我们采用了七个常用的LLIE基准数据集进行评估,包括LOLv 1 [45],LOLv 2 [54],DICM [11],LIME [6],MEF [14],NPE [39]和VV 2。具体而言,LOLv 1包含485个用于训练的低/正常光图像对和15个用于测试的图像对,这些图像对在不同曝光时间从真实的场景捕获。LOLv 2分为两个子集:LOLv 2-真实的和LOLv 2-合成的。LOLv 2-真实的包括689对用于训练的低光/正常光图像和100对用于测试的低光/正常光图像,通过调整曝光时间和ISO收集。LOLv 2-synthetic是通过分析低光图像的光照分布生成的,由900对用于训练的图像和100对用于测试的图像组成。根据最近的工作[51,43,40]中概述的设置,我们分别在LOLv 1和LOLv 2数据集上训练和测试了我们的模型。DICM、LIME、MEF、NPE和VV数据集包含几个未配对的真实的低光照图像,仅用于测试。

评价指标。我们采用全参考和非参考图像质量评价指标来评估各种LLIE方法。对于配对数据测试,我们利用峰值信噪比(PSNR),结构相似性(SSIM)[44]和学习感知图像块相似性(LPIPS)[57]。对于DICM,LIME,MEF,NPE和VV等数据集,其中配对数据不可用,我们仅采用自然度图像质量评估器(NIQE)[20]。

......

实现细节。我们使用PyTorch对模型进行了200万次迭代训练。我们采用了Adam优化器[10],学习率固定为1 × 10^−4,不使用权重衰减。在参数更新过程中,我们应用了指数移动平均,权重为0.9999。训练过程中,我们采用了细粒度的扩散过程,步数为T = 500步,噪声线性调度的两个端点分别为1 × 10^−4和2 × 10^−2。补丁大小和批量大小分别设置为96和8。超参数λ经验性地设置为10。

.....

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值