论文阅读之: DNF Decouple and Feedback Network for Seeing in the Dark_dnf: decouple and feedback network for seeing in t-CSDN博客

本文链接：https://blog.csdn.net/qq_46401672/article/details/132525126

DNF提出了解耦和反馈框架，解决单阶段和多阶段方法在RAW数据低光图像增强中的局限。通过领域特定任务解耦和特征级数据流，DNF在索尼和富士SID子集上实现了显著的性能提升，仅用19%的参数优于先前方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DNF: Decouple and Feedback Network for Seeing in the Dark

code https://github.com/Srameo/DNF
说明：自己学习的笔记。

Abstract

RAW数据的独特属性显示出在弱光图像增强方面的巨大潜力。然而，单阶段和多阶段方法的性能受到现有体系结构固有的局限性的制约。跨两个不同领域的混合映射，噪声到清洁和raw到srgb，由于领域的模糊性而误导了单阶段方法。多阶段方法仅通过每阶段的结果图像传播信息，而忽略了有损图像级数据流中的丰富特征==。在本文中，我们探讨了这些瓶颈的广义解决方案，并提出了一个解耦和反馈框架，简称DNF。==为了减轻域歧义，域特定子任务被解耦，同时充分利用RAW和sRGB域的独特属性。==基于反馈机制的特征跨阶段传播避免了图像级数据流带来的信息丢失。==我们方法的两个关键见解令人满意地解决了基于RAW数据的低光图像增强的固有局限性，使我们的方法仅用19%的参数就大大优于以前最先进的方法，在索尼和富士的SID子集上实现了0.97dB和1.30dB的PSNR改进。

1. Introduction

与sRGB数据相比，具有未处理信号的RAW数据具有三个方面的独特之处，这对LLIE有利:

1)信号与RAW域的光子数线性相关;

2)在图像信号处理(ISP)管道之前，RAW图像上的噪声分布易于处理[33]

3)RAW格式的较高位深记录了更容易识别的低强度信号。

开创性的工作SID[2]提出了基于raw的LLIE的大规模配对数据集，重新点燃了对数据驱动方法的兴趣。如图1所示，一行工作[2、5、12、13、22、42]侧重于设计==单阶段网络架构，另一行工作[4、7、35、47]利用多阶段网络==进行渐进式增强。尽管有很大的性能改进，==但这两种体系结构仍然受到固有限制的瓶颈。

	方式	缺点
单阶段网络架构	神经网络学习从有噪声的RAW域到干净的sRGB域的直接映射	跨两个不同领域(noise -to-clean和RAW-to-sRGB)的混合映射会误导整体增强过程，导致领域歧义问题。例如，在色彩空间变换过程中，RAW图像中可处理的噪声会被映射到不可预测的分布。因此，变换的颜色和未经处理的噪声不可避免地出现在图像中.
多阶段网络	现有的多阶段方法由级联的子网络组成管道，每个子网络负责在上一阶段输出图像的基础上逐步增强	在他们设计的图像级数据流中，只有图像在多个阶段之间向前传播，而后一个阶段只从前一个阶段的结果中获取信息。同时，每个阶段的每个子网都可能由于下采样操作或单独的目标函数而导致信息丢失[41]。因此，次优性能与有损图像级数据流密切相关。错误随着阶段的发展而传播、累积和放大，最终无法重建纹理细节

为了利用RAW图像在LLIE中的潜力，需要一个超越上述两个限制的通用管道。具体来说，神经网络应该在不同的领域中利用上述优点[7]，而不是被领域歧义所迷惑。根据RAW和sRGB域的独特属性，有必要将增强解耦到特定于域的子任务中。在探索了RAW域的线性性和可处理的噪声后，可以在不受噪声干扰的情况下进行从RAW域到sRGB域的色彩空间转换。此外，管道不会阻碍跨阶段的通信，而不是图像级数据流，只允许一小部分有损信息通过。由于子任务的多样性，每个层次的中间特征往往是互补的[20,46]。同时，多尺度特征保留了纹理和上下文信息，为后期阶段提供了额外的指导[41]。因此，不同阶段的特征需要在数据流中传播，聚集丰富的特征并保持完整的信息。特定于领域的解耦，与特征级数据流一起，促进了更好的增强性能的可学习性，并保留了方法的可解释性。

基于这些原则，我们提出了一个解耦和反馈(DNF)框架，并为基于raw的LLIE量身定制了以下设计。增强过程解耦为两个特定域的子任务:RAW域的去噪[30,33,45,48]和sRGB域的颜色恢复[8,28,39]，如图1©所示。在以前的作品[27]中常用的编码器-解码器架构下，子网中的每个模块都派生自每个域的专有属性:用于RAW去噪的信道独立去噪(CID)块和用于显色的矩阵色彩校正(MCC)块。此外，我们利用RAW解码器的多尺度特征作为先验去噪，而不是使用去噪后不准确的RAW图像。然后，通过所提出的门控融合模块(GFM)将特征流到共享RAW编码器中，进行自适应识别纹理细节和剩下的噪声。经过去噪的先验反馈，==进一步将信号与噪声区分开来，==在RAW域得到完整而丰富的特征。利用特征级数据流，MCC块解码器可以有效地处理剩余的增强和到sRGB域的颜色转换。

主要贡献总结如下:

领域特定任务解耦扩展了RAW和sRGB领域中独特属性的利用，避免了领域歧义。
特征级数据流由去噪先验反馈增强，减少了错误积累，并聚集了各个阶段的互补特征。
与之前最先进的方法相比，该方法仅以19%的参数和63%的FLOPs获得了显著的边际提升，例如在SID的索尼数据集上提高了0.97dB PSNR，在SID的富士数据集上提高了1.30dB PSNR。

Feedback Mechanism

反馈机制使网络能够从以前的状态访问抓取。这一思想已经应用于许多任务中，例如分类[37]、超分辨率[17,19]和点云补全[36]。考虑到反馈机制，Li等[19]采用了渐进式恢复的课程学习策略。Yan等[36]打算利用反馈机制将低分辨率特征丰富为高分辨率特征。现有的方法都采用反馈机制逐步完成单一任务，这与我们的方法不同。我们的反馈机制使我们的网络能够在不同领域的两个不同子任务之间进行通信。

Methodology

如图2所示，本文提出的解耦反馈框架包括RAW去噪和显色两个阶段，逐步增强弱光RAW图像。给定输入图像Xraw，在乘以预定义的放大比[2]后，放大后的图像X首先在RAW域中由编码器Eraw和解码器Draw去噪。然后，我们不再使用不准确的Yraw进行显色，而是将Draw back中的去噪特征Fdn馈送到eraw中，进一步用去噪先验来区分信号，并在raw域中组成丰富的特征。最后，sRGB解码器Drgb利用RAW域中的多尺度特征，渲染sRGB域中的最终输出。

具体来说，一个共享编码器Eraw和两个解码器(Draw和Drgb)是专门为子任务设计的，子任务通过Domain-Specific Task Decoupling与特定任务块解耦(第3.1节)。引入信道独立去噪(CID)块，学习RAW域中不同颜色信道的可处理且独立的噪声分布。根据色彩空间的定义，矩阵色彩校正(MCC)块使用全局矩阵变换完成对sRGB域的剩余增强。此外，我们还引入了一种去噪的先验反馈机制，以避免误差在各个阶段的累积。RAW编码器利用从RAW解码器中提取的去噪特征Fdn，用高频信息丰富浅层特征。此外，还提出了一种门控融合模块(GFM)，该模块具有门控机制[17]，可自适应地探索隐藏在噪声中的细节(第3.2节)。

3.1. Domain-Specific Task Decoupling

针对由噪声到清洁和raw到srgb混合映射引起的领域模糊问题，提出了领域特定任务解耦。噪声RAW域和干净sRGB域之间的鸿沟使得网络难以学习两个域之间的直接映射。因此，我们建议在裂缝之间的干净RAW域上加入中间监督，以减轻直接学习混合映射的困难。通过对干净RAW域的中间监督，我们可以:1)将增强解耦为RAW去噪和颜色恢复，2)充分利用RAW图像上的噪声分布易于处理的特性进行去噪，3)减少颜色恢复过程中的噪声干扰，从而减少颜色的偏移。

Denoising in RAW Domain

如图2所示，我们堆叠多个信道无关去噪(CID)块来实现RAW编码器Eraw和RAW解码器Draw。CID块的设计基于以下两个先验知识:1)RAW格式的弱光图像存在与信号无关的噪声，噪声遵循零均值分布[9,33];2)由于不同通道的信号在RAW域中固有的相关性较低，噪声在通道间的分布趋于独立[24,34]。因此，我们需要对几乎相同的信号(相邻像素)进行突发观测，以消除零均值噪声的干扰。此外，在去噪过程中防止信道信息交换对于处理信道无关的噪声分布是必不可少的。根据上述讨论，我们在CID块中引入了带有大核的深度卷积来进行去噪。CID块的详细结构如图3 (a)所示。具体而言，对于输入特征 $F_{in}$ ，经过信道无关去噪块后的输出特征Fout可表示为:

其中DConv7是一个具有7 × 7核的深度卷积。MLP由两个逐点卷积层和一个GELU[6]非线性函数实现。此外，==残差开关==被设置为使用权重共享CID块执行两种不同的功能，详细信息见第3.2节。

Color Correction for RAW-to-sRGB 矩阵变换通常用于规范的ISP管道[23]。由于全局共享的设置，如环境照明和色彩空间规格，图像的颜色主要通过通道矩阵变换增强或转换到另一个色彩空间。遵循这一原则，我们引入了一个矩阵色彩校正(MCC)块来执行全局色彩增强和局部细化，如图3 (b)所示。对于sRGB解码器Drgb，我们堆叠多个MCC块进行色彩校正。该模块的设计得益于最近在转置自我注意方面的进展[38]。它的全局接受域和通道操作很好地适应了规范ISP的色彩校正。

给定输入源特征Fsource∈RC×H×W，首先通过1 × 1卷积层的投影生成查询Q∈RC×HW，键K∈RC×HW，值V∈RC×HW的向量，然后再进行3 × 3深度层的投影和flatten运算。然后，通过矩阵乘法得到变换矩阵M∈RC×C。该程序可制定为:

其中标度系数λ用于数值稳定性。然后用矩阵M变换颜色向量V，进行特征级的颜色空间转换。通过Ftarget = M·V可以得到颜色变换后的目标特征。作为对全局矩阵变换的补充，我们使用深度卷积和点卷积来进一步细化局部细节。

3.2. Denoising Prior Feedback

在以往基于raw的方法中[4,7,35,47]，部分高频内容在增强过程中被错误地识别为噪声，导致最终结果严重恶化，细节丢失，导致数据流有损。为了避免现有多阶段方法的有损图像级数据流，我们提出了一种具有特征级信息传播的去噪先验反馈机制。令Fdn = {f1 dn, f2 dn，…， F L dn}为从RAW解码器Draw中提取的去噪特征集合，其中L表示阶段数。Fdn的每个元素主要包含RAW域内不同尺度下的最终噪声估计信息。具体来说，这些特征使噪声更容易被区分，并为进一步去噪提供指导。通过将去噪特征集Fdn重新路由到具有多个反馈连接的RAW编码器的相应阶段[1,19,29]，编码器通过最后一次估计逐渐产生更好的去噪特征，进一步增强。因此，sRGB解码器Drgb可以更专注于色彩校正。反馈管道如图2所示，可表示为:

其中Frdn表示将转发给sRGB解码器的精细去噪特征。E ’ raw表示raw编码器，该编码器不仅包含Eraw的权重，还配备了L门控融合模块(GFMs)。每个GFM负责处理来自Fdn的一个反馈特性。

**门控融合模块。**GFM通过门控机制自适应融合反馈噪声估计和初始去噪特征[17]。在特征门控过程中，我们期望有用的信息能够自适应地沿着空间和通道维度进行选择和合并。为了提高效率，我们分别使用点向卷积和深度向卷积[3]来聚合频道和本地内容信息。然后，我们沿着通道维度将混合特征分割为两个块，即 $f^l_{gate}$ 和 $f^l_{con}$ ，在GELU非线性函数激活后，fl栅极通过点向乘法对fl con进行栅极。我们通过这种门控机制实现了空间和信道的自适应。GFM的详细结构如图3 ©所示,第l点(l∈{1,2，…， L})阶段可表示为:

其中，DConv3和PConv分别表示核为3 × 3的深度卷积和点向卷积。⊙表示标准产品。 $f^l_{raw}$ 为原始raw编码器中第l层上尺度后得到的特征。F是对应的融合特征。

逐点卷积对该融合特征执行通道混合。混合特征被馈送到RAW编码器中的下一个CID块以进一步细化。

Residual Switch Mechanism. 为了更好地去噪，我们只在RAW域去噪阶段保留全局快捷方式[22,43]，在颜色恢复阶段将其去除，避免有噪声的RAW域与干净的sRGB域之间的模糊联系，如图2所示。因此，要求编码器在去噪时进行噪声估计，然而，在颜色恢复期间重建信号。对于单个编码器中的两个相互矛盾的功能，我们提出了一个简单而有效的残差开关机制(RSM)，如图3 (a)所示，使共享RAW编码器中的CID块产生两个相互矛盾的特征:噪声和信号。在具有全局残差连接的去噪阶段，关闭局部残差捷径来估计噪声。相反，在绘制阶段触发局部残差，用捷径上的原始特征抵消噪声，最终重建信号。如图4所示，共享RAW编码器的CID块在RSM的不同阶段能够产生两种不同的特征。但是，如果没有RSM，权值共享CID块在颜色恢复阶段无法区分噪声和信号，导致特征模糊。剩余的噪声阻碍了颜色校正过程，并再次引入域模糊性。

3.3. Training Objectives

为了依次完成特定领域任务解耦后的RAW去噪和颜色恢复子任务，我们在不同的领域上引入了两种不同的监督，即干净的RAW和干净的sRGB。最基本的事实是清晰的RAW图像。我们将去噪解码器的输出RAW图像表示为Yraw。我们网络的损失函数为: