Instance Segmentation in the Dark——论文阅读笔记

邱L宁X

已于 2023-09-24 11:16:23 修改

阅读量881

点赞数

文章标签：笔记

于 2023-09-23 17:28:16 首次发布

本文链接：https://blog.csdn.net/qiulei0202/article/details/133130525

版权

论文地址：https://arxiv.org/abs/2304.14298

代码地址：GitHub - Linwei-Chen/LIS: IJCV2023 Instance Segmentation in the Dark

摘要(Abstract)：

现有的实例分割方法主要面向高质量的输入图像，而在极暗环境下，它们的性能会显著退化。本文，我们深入探讨暗光环境下的实例分割，并提出几个能够显著提升暗光下模型推理准确性的方法。所提出的方法受该观察启发：低照度图像中的噪声会对神经网络输出特征图带来高频干扰，因此造成模型性能的显著退化。为了抑制这种“特征噪声”，我们提出了依赖于自适应权重下采样层（adaptive weighted downsampling layer），面向平滑卷积块（smooth-oriented convolutional block），干扰抑制学习（disturbance suppression learning）的创新学习方法。这些模块有效地减少了下采样和卷积过程中的特征噪声，使得模型能够学习到抗扰动的特征。此外，我们发现，在暗光环境下，与典型的相机sRGB输出图像相比，高比特深度的RAW图像可以保留更丰富的场景信息。我们的研究表明，高比特深度对于低光实例分割至关重要。为缓解RAW图像标注数据集缺乏的现状，我们利用低照度RAW图像合成方法来生成逼真的低照度图像数据。此外，为促进这一方向未来的研究，我们在现实低照度场景下，拍摄了2000对以上的低/正常照度图像对，并进行了实例级、像素级的标注。值得一提的是，在未进行任何图像预处理的前提下，我们实现了令人满意的低光实例分割表现（AP比SOTA高4%），同时也为未来的研究带来了新机遇。我们的代码和数据集是开源的。

关键词：实例分割；特征去噪；低照度图像数据集；目标检测

1、引言(Introduction)

实例分割，即同时解决实例级目标检测和语义分割，在帮助计算机理解视觉信息和支撑例如机器人、自动驾驶等应用中举足轻重。

图1:(a):极端低照度实例分割（直接在短曝光低照度图像上使用Mask R-CNN)；(b):使用SOTA低照度增强算法和去噪算法进行预处理；(c):我们提出的方法在扩充的RAW格式图像（为了可视化，此处展示的为由RAW空间转为sRGB的结果）；(d):相对应的长曝光参考图像

随着深度学习的出现，许多基于学习的实例分割方法被提出，并在光线充足的场景下具有优异的表现。然而，这些方法在昏暗的环境下往往不起作用，由传感器有限光子数和缺陷所造成的噪声会掩盖图像中的细节内容。由于低照度实例分割是一项重要的任务，现有一些针对该项任务的数据集和方法。相关的低照度识别/检测方法仍处于起步阶段。在此背景下，最常用、简单的解决办法是将图像增强/去噪算法与实例分割模型结合。然而，额外的图像重建步骤增加了整个处理流程的计算成本和延迟。如图1所示，尽管如此，在极暗场景下，这些图像重建算法仅能恢复有限的场景信息，从而导致典型的相机sRGB输出图像中的细节永久丢失。

本文背景：

1、现有基于深度学习的实例分割方法在光线充足的场景下有效，昏暗环境下无效，噪声会掩盖图像中的细节。

2、针对暗光条件下实例分割的研究仍处于起步阶段。简单且常用的方式是将图像增强算法与实例分割模型结合，但会因此增加计算成本和延迟。

3、在极暗条件下，图像增强算法只能恢复有限的信息，sRGB格式图像中的一些细节将会永久丢失。

图2:阐明驱动方法设计的暗光环境下关键性发现：(a):低光下退化的特征图。对于干净的正常光照图像，实例分割网络可以明确地在网络的浅层和深层分别获取低级(边缘)和高级(语义表示)特征。然而，对于带噪声的低照度图像，浅层特征会被损坏并且充满噪声，深层特征表现出关于物体的更低级的语义表示。(b):暗光下相机sRGB输出和RAW图像的比较。由于低信噪比，8比特位低相机输出丢失了许多场景信息，例如，椅背结构几乎不可见，然而相对应的RAW图像仍然可见。

本文的目标是，以一种伴随着额外计算成本的端到端的方式，实现一个实用的低照度实例分割框架。为此，我们深入探究实例分割模型，并分析低照度图像是如何损害其性能。我们观察到，低照度图像中的噪声将会将“特征噪声（feature noise）”（如图2a中所示的高频干扰）带入神经网络内的特征图（feature map）中。这使得深度特征图中有关场景内容的语义表示更少，从而导致图像场景内容的重建效果差并有损模型性能。这一重要的现象同样也在对抗防御/攻击文献（adversarial defense/attack literatures）(Ps:这个不是很了解，应该翻译有误)中被发现，其认为从带有对抗噪声的样本中重建特征对模型的鲁棒性至关重要。受该发现启发，我们提出，通过自适应权重下采样层、面向平滑卷积块和干扰抑制学习，来增强现有的实例分割方法。它们整体提升了模型学习抗噪特征的能力，并因此显著提升了低照度分割的准确性。值得注意的是，它们是模型无关、轻量甚至是无成本的。

具体地，自适应权重下采样层在进行特征图下采样时，可以生成内容感知的低通滤波器（content-aware low-pass filters）。它可以自适应的整合局部特征、抑制由噪声引发的高频干扰并保持深度特征图中细节。面向平滑卷积块通过增加一个面向平滑卷积分支来增强原有的卷积层。它可以帮助提升网络针对特征噪声的鲁棒性并被重新参数化到普通卷积层上。干扰抑制学习引导网络学习抗噪特征，因此针对噪声低照度图像中的场景内容，可以有一个稳定的语义表示。值得一提的是，上述模块都是模型无关的。并且，只有自适应权重下采样层会带来少量计算量，面向平滑卷积块和干扰抑制学习并不会带来额外的计算量，因为它们只参与训练。

此外，我们注意到，高比特深度（high bit-depth）对于低照度环境至关重要。因此，为了减少暗光环境下场景信息的丢失，我们采用14bit的RAW传感器数据而不是8bit的sRGB相机输出作为模型的输入，14bit的RAW传感器数据有更高的比特深度，即使是在极暗环境下，也更具保留场景信息的潜力（如图2b所示）。然而，到目前为止，并没有针对实例分割的低照度RAW图像数据集，该数据的收集和标注是极其耗时耗力的。为解决这一困难，我们利用低照度RAW图像合成方法。它可以由任意现有的sRGB图像数据集（如，PASCAL VOC 2012、COCO）生成逼真的RAW图像数据集，这使得将RAW图像作为输入的实例分割模型，进行端到端的训练变得可行。

为了系统地测试现有方法在真实低照度场景下的性能，我们也采集并标注了一个包含2230对低/正常照度图像对的低照度实例分割数据集（low-light instance segmentation, LIS)，覆盖了各种各样真实世界的室内外低照度场景。大量的实验验证了我们的方法在暗光环境下具有优异的实例分割性能，在准确性和计算成本上都要优于现有的方法。

我们的主要贡献总结如下：

1、我们提出了自适应权重下采样层、面向平滑卷积块和干扰抑制学习，以解决低照度环境下深度特征图中的高频干扰。有趣的是，它们也同样有益于正常照度下的实例分割。

2、我们探究了将RAW格式图像作为低照度实例分割输入的潜力，并利用低照度RAW图像合成方法，由现有数据集合成出逼真的低照度RAW格式图像，促进了端到端的训练。

3、我们收集了真实环境下的低照度图像数据集，并进行了精确的逐像素的实例级标注，取名为LIS。它覆盖了超过两千个场景，并可以作为暗光下实例分割的基准数据集。在LIS上，我们的方法在分割准确率和推理世界上都要优于SOTA。

2、相关工作(Related Work)

2.1 正常照度下的实例分割(Normal instance segmentation)

随着深度学习的出现，计算机视觉领域也在蓬勃发展。实例分割任务旨在预测物体的类别和像素级的实例掩码。它可定位各种图像中不同物体实例的类别。现有的许多方法都依赖于Faster R-CNN。通过采取先检测后改进的策略，它们可以实现优异的性能，但是运行速度相对较慢。其他基于简单却有效的检测器的方法，它们可以实时运行并有较好的准确性。尽管它们取得了可观的进步，但是大多数现有的工作仅仅考虑正常光照的场景并忽视了低光场景。

2.2 暗光环境下的实例分割(Instance segmentation in the dark)

为能在暗光环境下进行实例分割，最直接的方法就是采用低照度增强方法或图像去噪方法作为预处理步骤。与正常光照下实例分割相比，低照度下实例分割的研究仍处于起步阶段，相关研究目前相对较少。

许多工作探究了低照度图像分类任务。Gnanasambandam等人提出了基于量化图像传感器（Quanta Image Sensor，QIS）的低照度图像分类方法，通过蒸馏学习的方式来分类带噪声的QIS RAW数据，取得了可观的结果。

至于低照度目标检测任务，刘等人使用高级视觉模型指导去噪器的训练，展现了图像去噪和高级视觉任务的优势。Diamond等人提出了Anscomebe网络，即用于去噪和去马赛克的轻量级神经相机图像处理器(neural camera ISP)。通过联合学习Anscombe网络和分类网络，它在低照度分类任务上具有理想的性能表现。Julca-Aguilar 等人提出了一种新颖的三维目标检测程序，它利用从低成本的单目门控成像仪中获取的时间照明线索。它展示出了处理低光或低对比度区域的潜力。Wang等人提出了一种联合高低适应(High-Low Adaptation, HLA)框架。通过采用双向低级适应和多任务高级适应方案，即使在不使用暗人脸标签进行训练的情况下，所提出的 HLA-Face 也优于SOTA。Sasagawa 等人提出了胶层(glue layer)来“粘合”SID 模型和 YOLO 模型。崔等人提出通过对逼真的光照退化变换进行编码和解码来学习内在的视觉结构。他们在低照度分类或低照度目标检测任务上取得了理想的性能，但没有考虑更具挑战性的低光实例分割。

2.3 低照度图像合成(Low-light synthesis)

低照度图像增强方法通常需要低光/正常光图像对进行训练，很难获得。一些工作通过以零参考方式学习或使用未配对的图像进行训练来解决这个问题。一些工作探索了由正常光图像合成低光图像。RetinexNet 从 RAISE 中收集正常光 RAW 图像，并使它们在 YCbCr 中的 Y 通道的直方图拟合公共数据集中低光图像，从而使用 Adobe Lightroom 软件合成低光图像。GLADNet 也由RAISE中的 RAW 图像合成低光图像，其通过调整曝光、饱和度和对比度参数实现。最近的工作通过将噪声考虑进来，使得合成低照度图像方面取得了进展，但它们仍然依赖于 RAW 图像，现有实例分割数据集没有RAW图像数据集。虽然一些工作试图由正常照度图像合成低光 sRGB 图像，但他们只考虑了简单的高斯噪声和泊松噪声。此外，它们不适用于由现有的 sRGB 数据集合成低照度RAW 图像。为了解决这个问题，我们利用反向处理并使用最近提出的基于物理的噪声模型由任意的带有标签的 sRGB 图像合成出逼真的低照度RAW 图像。

2.4 低照度实例分割数据集(Datasets for low-light instance segmentation)

现有的用于实例分割的常用数据集，如 PASCAL VOC 、cityscapes 和 COCO，在正常光照下实例分割算法的研究中发挥着重要作用。并且有几个数据集可用于夜间检测和语义分割。还有一些工作研究理解能见度较差的环境。然而，这些数据集中的图像是在一些昏暗而不是极暗的环境中获得的，其噪声水平很低。此外，由于缺乏实例级像素级标签，它们不适合实例分割。为了更好地设计在极暗环境下实例分割模型，我们收集并注释了真实低光图像数据集，其中包含精确的实例级像素级注释，称为Low-light Instance Segmentation(LIS)。

3、学习在低照度环境下的分割（Learning Segmentation in Low Light）

所提出方法的框架如图3所示。在本小节中，我们首先描述了我们的动机。然后，我们在3.2小节中介绍了低照度RAW图像合成的流程。最后，我们分别在3.3，3.4和3.5中给出了自适应权重下采样层(Adaptive Weighted Downsampling layer, AWD)、面向平滑卷积块(Smooth-oriented Convolutional Block, SCB)和干扰抑制学习(Disturbance mSuppression Learning, DSL)。

图3:本文方法框架图。自适应下采样层、面向平滑卷积块和干扰抑制损失均是为了减少由噪声造成的特征干扰而设计的。应用低照度RAW图像合成方法是为了促进实例分割模型在RAW格式图像上进行端到端的训练。

3.1 动机(Motivation)

一个实用的低照度实例分割框架应当是准确且有效的。我们注意到，归功于更高的比特深度，RAW格式的图像更具恢复场景信息的潜力（如图2b所示）。这应当是有宜于低照度实例分割任务的。然而，收集用于低照度图像分割的RAW格式图像数据集是昂贵且耗时耗力的，如果现有的正常光照图像数据集能够用于训练目标模型就再好不过了。为此，我们通过反向处理和噪声注入，将带有标签的sRGB图像合成为逼真的低照度RAW格式图像。

此外，我们观察到低照度图像中的噪声会干扰预测，针对这一退化现象的解决方法（例如，增加增强或去噪步骤）往往会带来额外的计算成本。为了避免上述问题，取代对图像进行去噪，我们目标对实例分割模型中的特征图进行去噪（即抑制特征图中的高频干扰，如图2a）。这比增加额外的图像增强/去噪模型来得更加经济。接下来，我们将细致地介绍我们的方法。

3.2 低照度RAW图像合成流程(Low-light RAW Synthetic Pipeline)

我们的低照度RAW格式图像合成流程包含两步，即反向处理和噪声注入。我们将逐一对其进行介绍：

3.2.1 反向处理(Unprocessing)

收集大规模的RAW格式图像数据集是昂贵且耗时的，因此我们考虑使用现有的sRGB图像数据集。RAW格式图像在经由相机图像信号处理器（camera image signal processing, ISP）对其进行一系列图像变换（例如，风格映射、伽马矫正、色彩矫正、白平衡和去马赛克）后，转化为sRGB图像。借助于反向处理操作，我们可以反转这些图像处理变换，从而获得RAW格式图像。通过这种方式，我们零成本创造了一个RAW数据集。

3.2.2 噪声注入(Noise injection)

在通过反向处理获得了干净的RAW格式图像后，为模拟真实的带噪声低照度图像，我们需要将噪声注入到RAW格式图像中。为产生更真实复杂的噪声，我们采用了最新提出的基于物理的噪声模型，而不是应用广泛的泊松-高斯噪声模型，即异方差噪声模型。它通过考虑更多的噪声源（包括光子散粒噪声、读噪声、条带噪声和量化噪声），从而能够更准确地刻画真实噪声结构。

3.3 自适应下采样层(Adaptive Weighted Downsampling Layer)

图4:自适应权重下采样层说明。ResNet中原有的下采样操作是采用步长为2的卷积层(b)，3/4的空间特征未能被利用去抑制特征噪声。提出的自适应权重下采样(AWD)层(c)可以选择性的聚合周围的所有特征去生成仅有少量特征噪声的下采样特征图。(d)中的FC意为全连接层，‘r'意为通道减少比率。

为了对图像噪声具有鲁棒性，网络的特征图应当是干净的且对于场景内容具有一致的表示。如图2a所示，低照度图像中的噪声会引入高频噪声至卷积神经网络的特征图中，这会误导接下来的语义信息提取并有损最终的预测结果。我们注意到，如图4所示，被广泛使用的普通ResNet采用的是，步长为2的1*1卷积层进行特征图的下采样。这类似于使用最近邻插值法进行下采样，它只考虑单个像素。它有助于减少计算成本，但是对于抑制特征图中的噪声毫无用处。为了有助于理解，我们在图5中给出了样例。首先，我们将高斯噪声（ $\sigma =60$ ）映射到干净图像上从而得到一张噪声图像，然后，分别使用最近邻差值和均值滤波器对噪声图进行下采样。由于局部平滑先验，均值滤波器可以在下采样时抑制图像噪声，而最近邻插值法对噪声毫无作用。这也同样适用于特征图。

图5:由低通滤波器(均值滤波器)进行下采样可以抑制噪声，而最近邻插值法不行。

3.3.1 使用低通滤波器下采样(Downsample with low-pass filter)

在上述分析的基础上，我们提出将低通滤波器(例如，步长为2的高斯滤波器、均值滤波器或双边滤波器)用于特征图下采样。为了验证低通滤波器有助于抑制特征噪声，我们使用式(1)评估特征噪声：

$D\left ( x,x^{'},f\left ( \cdot ;\theta \right ) \right )=\sum_{i=1}^{n}\left \| f^{\left ( i \right )} \left ( x;\theta \right )-f^{\left ( i \right )} \left ( x^{'};\theta \right )\right \|_{2}^{2}$ (1)

其中 $D$ 表示由图像噪声造成的特征干扰，即特征噪声。 $x$ 和 $x^{'}$ 分别为干净正常光图像和对应的带噪声的低照度图像， $f^{\left ( i \right )} \left ( x;\theta \right )$ 为参数为 $\theta$ 的网络 $f\left ( \cdot \right )$ 的第 $i$ 阶段特征图。如表1所示，这些低通滤波器可以减少由低照度图像中噪声引发的噪声干扰，并且实例分割性能也得到了提升，验证了低通滤波器的有效性。

表1:特征图下采样过程中，不同机制进行特征去噪的消融实验。

3.3.2 学习生成空间可变滤波器(Learning to generate spatial-variant filter)

尽管这些低通滤波器在消耗少量额外计算成本的同时可以实现更好的低照度实例分割结果，但是它们仍然是次优的。例如，它们也许会模糊场景内容中相对高频的边缘或纹理特征。此外，特征图中不同的空间位置通常有不同的信号频率。我们需要分别使用不同的滤波器。因此，我们提出使用空间可变滤波器，可表示为：

$Y_{i,j}=\sum_{p,q\in S} W_{i,j}^{p,q}\cdot X_{i+p,j+q}$ (2)

其中， $X,Y$ 分别为输入、输出特征图， $\left ( i,j \right )$ 为像素的宽、高位置， $S$ 指 $\left ( i,j \right )$ 附近空间位置的集合， $W$ 为由网络预测的滤波器权重：

$V_{i,j}=\phi \left ( X_{\Psi _{i,j}} \right )\newline W_{i,j}^{p,q}=\frac{exp\left ( V_{i,j}^{p,q}\right )}{\sum_{p,q\in S}exp\left ( V_{i,j}^{p,q}\right )}$ (3)

其中， $\phi$ 表示权重生成函数， $\Psi _{i,j}$ 按条件索引像素集合 $V_{i,j}$ 。softmax函数可以确保滤波器核是低通的。

3.3.3 自适应权重下采样层(Adaptive weighted downsampling layer)

表1展现了特征去噪中空间可变滤波器的优越性，但是它仍然有两个缺点。首先，鉴于特征图的各个通道为不同图像特征的语义表示，在某一准确的空间位置上，信号频率是在通道间变化的。因此，空间可变不足以实现最优的结果，有必要针对空间和通道位置，生成空间可变和通道可变滤波器。其次，空间可变滤波器由局部特征生成滤波器权重，无法利用上下文和全局信息。为解决这些问题，我们提出一种自适应权重下采样层，可表示为：

$Y_{c,i,j}=\sum_{p,q\in S} W_{c,i,j}^{p,q}\cdot X_{c,i+p,j+q}$ (4)

其中， $\left (c, i,j \right )$ 为像素的通道、宽、高位置， $W$ 为由网络预测的滤波器权重：

$V_{c,i,j}=\phi \left ( X_{\Psi _{c,i,j}} \right ),T_{c}=\phi ^{'}\left ( GP\left ( X \right ) \right )\newline W_{c,i,j}^{p,q}=\frac{exp\left ( V_{c,i,j}^{p,q}\cdot T_{c}\right )}{\sum_{p,q\in S}exp\left ( V_{c,i,j}^{p,q}\cdot T_{c}\right )}$ (5)

其中， $\phi$ , $\phi^{'}$ 表示权重生成函数， $\Psi _{c,i,j}$ 按条件索引像素集合 $V_{c,i,j}$ ,GP为全局池化操作。如图4d所示，它是通过结合局部信息V（通过使用局部特征）和全局信息T（通过使用全局池化特征）来估计的。预测的 $T_{c}$ 可以调整核 $W _{c,i,j}$ 的平滑度，这类似于 softmax 中的温度参数。为了确保生成的滤波器是低通的，我们使用softmax来约束权重是正数并且和为1。通过这种方式，我们预测了各个位置和通道的内容感知低通滤波器，从而可以自适应地保持前景信号和抑制特征噪声。

3.4 面向平滑卷积块(Smooth-Oriented Convolutional Block)

通过精心设计下采样的过程，自适应权重下采样层提升了网络的鲁棒性。为了进一步提升网络，我们将注意力转移至增强普通卷积层的性能。卷积块的设计原则包括两方面。首先，提升的卷积块应当对特征噪声更加鲁棒。其次，额外的计算量应当尽可能的少或者是没有。为此，我们提出面向平滑卷积块。它可以替代原始的3*3卷积层以提升网络。值得一提的是，通过重新参数化方法，它在推理过程中并没有增加额外的计算量。

图6：面向平滑卷积块的说明。SConv 表示面向平滑卷积。(a) 它在训练阶段显式地使用多个分支的线性组合。(b)在推理阶段，可以通过使用重新参数化技术将其折叠回正常的3 × 3卷积层。

面向平滑卷积块的结构如图6所示，它在训练阶段显式的使用了多个分支的线性组合。主卷积分支与原始的3*3卷积层一致。副分支由一个1*1卷积层和面向平滑卷积组成，其可以学习到平滑核来抑制高频的特征噪声。为了确保滤波器是平滑的，我们使用了均值滤波器或高斯滤波器来初始化面向平滑卷积的权重并通过softmax函数来正则化它的权重。，从而确保每个通道学习到的3*3卷积核是正值并且总和为1。并且，它跟在1*1卷积层后面将过滤后的特征融合进主卷积分支中。

在推理阶段，可以通过重新参数化技术将面向平滑卷积块折叠回普通的3*3卷积层。形式上，我们使用 $W\in R^{C_{2}\times C_{1}\times 3\times 3}$ 输入通道为 $C_{1}$ ，输出通道为 $C_{2}$ ，卷积核为3*3的卷积层。折叠后的3*3卷积核可以被重新参数化为：

$W_{3\times 3}^{'}\left [ i,j,h,t \right ]=W_{3\times 3}\left [ i,j,h,t \right ]+\left ( W_{1\times 1} \left [ i,j,1,1 \right ]*W_{SConv} \left [ i,1,h,t \right ]\right )$ (6)

其中， $i\ni \left \{ 1,2,...,C_{2} \right \},j\ni \left \{ 1,2,...,C_{1} \right \}$ ，且 $h,t\in \left \{ 1,2,3 \right \}$ 为指示器。 $W_{3\times 3}^{'}\in R^{C_{2}\times C_{1}\times 3\times 3}$ 为用于推理的折叠卷积层的核的权重， $W_{3\times 3}\in R^{C_{2}\times C_{1}\times 3\times 3},W_{1\times 1}\in R^{C_{2}\times C_{1}\times 1\times 1},W_{SConv}\in R^{C_{2}\times 1\times 3\times 3}$ 分别为训练阶段的3*3卷积层、1*1卷积层和面向平滑卷积。

3.5 干扰抑制学习(Disturbance Suppression Learning)

理想情况下，一个鲁棒的网络，无论输入图像是否被噪声损坏，都应该提取出相似的特征。与架构的考量无关，我们引入了干扰抑制学习来鼓励网络在训练阶段学习抗扰动的特征。如图3所示，指导网络学习的总损失为：

$L\left ( \theta \right )=L_{IS}\left ( x;\theta \right )+\alpha L_{IS}\left ( x^{'};\theta \right )+\beta L_{DS}\left ( x;x^{'};\theta \right )$ (7)

其中， $x$ 为反向处理后的干净合成RAW格式图像， $x^{'}$ 为它的带噪声版本， $\alpha$ 和 $\beta$ 为损失的权重。我们出于经验，将 $\alpha$ 和 $\beta$ 分别设置为1和0.01。 $L_{IS}$ 为实例分割损失，由分类损失、边界框回归损失和分割（逐像素分类）损失组成。它的具体公式与实例分割模型有关，细节请参考Mask R-CNN。无论图像是否有噪声，学习到的网络都应当工作稳定。因此 $L_{IS}$ 同时应用在干净图像 $x$ 和噪声图像 $x^{'}$ 。 $L_{DS}$ 为特征扰动抑制损失，定义如下：

$L_{DS}\left ( x,x^{'},\theta \right )=\sum_{i=1}^{n}\left \| f^{\left ( i \right )} \left ( x;\theta \right )-f^{\left ( i \right )} \left ( x^{'};\theta \right )\right \|_{2}^{2}$ (8)

其中， $f^{\left ( i \right )} \left ( x;\theta \right )$ 为模型第 $i$ 阶段特征图。通过最小化干净特征 $f^{\left ( i \right )} \left ( x;\theta \right )$ 和噪声特征 $f^{\left ( i \right )} \left ( x^{'};\theta \right )$ 的欧几里得距离，扰动抑制损失指导模型学习抗扰动特征。因此，由图像噪声造成的特征干扰得以减少，对于破损低照度图像的鲁棒性也实现了提升。

与感知损失不同，我们不需要预训练一个教师网络，这使得我们的训练更加的简单和快速。通过 $L_{IS} \left ( x;\theta \right )$ 和 $L_{IS} \left ( x^{'};\theta \right )$ ，我们的模型从干净和噪声图像中都可以学习到可辨别的特征，从而不管图像是否被噪声损坏，都能保持稳定的准确性。然而，感知损失中的学生只能看见噪声图，这导致模型在干净图像上会出现性能退化并且限制了模型的鲁棒性。此外，教师模型和学生模型特征分布间的域差距也许会损害学习过程。当我们最小化同一模型学习到的干净特征和噪声特征间的距离，将会避免上述问题。

4、低照度实例分割数据集（Low-light Instance Segmentation Dataset）

虽然使用合成的低照度图像进行评估是一种常见且方便的做法，但由于真实环境下光照条件和图像噪声更复杂，其结果可能会严重偏离现实世界。为了揭示和系统地研究所提出的方法在现实世界中的有效性，需要一个用于实例分割的真实低照度图像数据集。因此，考虑到没有合适的数据集，我们使用佳能EOS 5D Mark IV相机收集图像并注释，构建了低照度实例分割(LIS)数据集。在图 7 中，我们展示了 LIS 数据集中一些带注释的图像示例。它表现出以下特点：

图7：LIS 数据集中的示例场景。每个场景拍摄四种图像类型（RAW 和 sRGB 格式的长曝光正常光和短曝光低光图像）。

配对样本：在 LIS 数据集中，我们提供了 sRGB-JPEG（典型的相机输出）和 RAW 格式的图像，每种格式由成对的短曝光低光图像和对应的长曝光正常光图像组成。我们将这些四种类型的图像称为 sRGB-dark、sRGB-normal、RAW-dark 和 RAW-normal。为了确保它们是像素级对齐的，我们将相机安装在坚固的三脚架上，并通过app远程控制以避免振动。

多种场景：LIS 数据集由 2230 个图像对组成，这些图像对在室内、外的多个场景中收集而来。为增加低照度条件的多样性，我们采用多个ISO水平(如800、1600、3200、6400)来拍摄长曝光参考图像，我们特意通过多个弱光因子(如10、20、30、40、50、100)减少曝光时间拍摄短曝光图，以模拟极低的光照条件。

实例级像素级标签：每对图像都由专业注释者进行了精确的实例级像素级标签。标注的10504 个标记均属于日常生活中最常见的 8 个类别（自行车、汽车、摩托车、公共汽车、瓶子、椅子、餐桌、电视）。

我们注意到，LIS包含在不同场景(室内和室外)和不同光照条件下捕获的图像。如图7所示，除了低照度外，物体遮挡和密集分布的物体也使得LIS更具挑战性。

5、实验（Experiment）

在本节中，我们首先介绍实现细节和评估指标。然后我们进行消融实验以评估所提出方法的有效性。最后，我们将我们的方法与现有的多阶段方法进行了比较。

5.1 实现细节

简单起见，所有实验都是在以 ResNet-50-FPN 为主干的Mask R-CNN基线模型上进行的。请注意，我们提出的方法可以插入任何基于网络的实例分割模型。

5.1.1 训练细节

本文框架采用合成低照度RAW-RGB图像进行训练，该数据集使用我们提出的低照度RAW图像合成方法对COCO 数据集进行处理得到。我们的实现基于 MMDetection。训练期间，我们使用随机翻转作为数据增强手段，批处理大小设置为8，在训练开始的前12个（epochs），学习率保持为0.01，在第8个和第11个迭代周期结束时，学习率将减小到0.001。为了使模型快速适应低照度环境，我们使用 COCO 预训练模型作为初始化。

5.1.2 数据集及评估指标

在LIS数据集上评估了模型在现实的低照度环境进行实例分割的性能，2230个图像对被随机分成1561对的训练集和669对的测试集。

继Mask R-CNN之后，我们使用 COCO-style AP（在 0.5 到 0.95，间隔为 0.05 的阈值上取平均值）、 $\textup{AP}_{50}$ 和 $\textup{AP}_{75}$ （IoU阈值为0.5的AP）来衡量性能。我们还提供了检测结果，表示为 $\textup{AP}^{box},\textup{AP}_{50}^{box},\textup{AP}_{75}^{box}$ 。为了评估推理速度，我们使用单个 RTX 3090，测量每种方法在 600 × 400 图像上的FPS。

COCO-style AP：这是一种平均精度（Average Precision，AP）的度量方式，通常用于评估目标检测模型的性能。COCO（Common Objects in Context）是一个广泛使用的目标检测数据集，该数据集定义了一种特定的AP计算方式。COCO-style AP在不同的IoU（Intersection over Union，交并比）阈值范围内进行计算，通常从0.5到0.95，每个阈值间隔为0.05。这意味着会计算一系列不同IoU阈值下的AP，并将它们取平均值，以综合评估模型在不同IoU条件下的性能。

5.2 消融实验

在本节中，我们首先对输入图像类型进行消融实验，以揭示RAW图像在低照度实例分割方面的优势，并在表2中验证了低照度RAW图像合成方法的有效性。然后，我们研究了自适应加权下采样层、面向平滑卷积块和干扰抑制学习。如表3所示，它们都有助于提高性能。最后，我们验证了低照度RAW图像合成方法的有效性（原文中这一句貌似重复了）。所有结果都基于LIS 测试集。

表2：LIS 测试集上低照度RAW图像合成方法的消融研究。“UP”和“NI”分别表示反向处理和噪声注入操作。“*”表示伽马校正处理。所有模型都基于以ResNet-50-FPN 为主干的Mask R-CNN。

表3：自适应权重下采样、面向平滑滑卷积块和干扰抑制学习的消融实验。“Synthetic LIS”表示使用反向处理和噪声注入将sRGB-normal图像转换为合成低照度图像用于训练。“Real LIS”表示训练集中的 RAW-dark/RAW-normal 图像对。表中为 LIS RAW-dark 测试集实验结果。

sRGB vs RAW:

为了探索 sRGB 图像和 RAW 图像在正常光和弱光条件下的上限，我们分别在 LIS 数据集的 sRGB-normal、RAW-normal、sRGB-dark 和 RAW-dark上进行了实验。如表 2 所示，在正常光下，sRGB 和 RAW 具有相似的性能上限。但是 RAW-normal 和 sRGB-normal 之间却存在性能差距（45.4 AP vs 48.1 AP）。为了更深入地研究这种现象，我们注意到尽管它们包含相似的场景信息，但sRGB-normal在视觉上比 RAW-normal更亮，尤其是对于暗区域（如图8所示）。这是由于，将 RAW 处理为 sRGB 的过程中，采用了伽马校正造成的。由于人的感知是非线性的，人类对较暗区域之间相对差异的敏感性比较亮区域之间的差异更明显。伽马校正可以避免分配太多的比特给人类难以区分的高亮区域。通常，伽马校正可以写成：

$I_{out}=I_{in}^{\gamma }$ (9)

其中， $I\in \left [ 0,1 \right ]$ 是归一化的图像像素， $\gamma$ 通常设置为 1/2.2，用于将 RAW 处理为 sRGB。在应用伽马校正后，伽马校正后的RAW-dark显示出近似的亮度，如图8 (c)所示。相应的，性能也与sRGB-normal保持一致，如表2所示。

图8：sRGB-normal和RAW-normal有无gamma校正。sRGB-normal (a) 在视觉上比 RAW-normal (b) 更亮，尤其是暗区域。在伽马校正后，RAW-dark (c) 与 sRGB-normal有近似的亮度。

在低照度条件下，RAW 图像的结果明显优于 sRGB 图像，这表明 RAW 图像在极暗环境下保留了更丰富的场景信息。这对于实例分割任务至关重要。我们推测这是由于RAW图像的颜色编码更高(佳能EOS 5D 14位RAW vs 8位sRGB)。为了验证这一点，我们将 14 位 RAW 图像量化为不同颜色编码的 RAW 图像（例如， 8、10 和 12 位），以模拟各种颜色编码。RAW图像对应的10、12位和14位sRGB-dark通过图像处理方法得到，这表明了RAW图像的必要性。图像处理方法包括数字增益、白平衡、去马赛克、色彩校正和伽马校正。值得注意的是，由14位RAW图像量化得到的各种颜色编码的RAW图像可能不同与直接获取它们。然而，由于特定的商业相机模型只支持具有恒定位深度的 RAW图片（通常是high-end DSLR 中的 14bit），因此在这，我们通过量化来模拟他们的结果，以实现快速验证。

如表 4 所示，我们可以看到在 sRGB-dark 和 RAW-dark上，随着比特深度由从 8 位增加到 14 位，性能也得到了提升，并且sRGB-dark 的结果与 RAW-dark 非常相似。此外，我们还注意到， RAW-dark 的结果略好于 sRGB-dark。原因可能是图像处理方法中的步骤可以使 sRGB 的噪声比 RAW 更复杂，从而导致精度下降。这些定量结果表明，RAW图像的高位特性在低照度实例分割中起着至关重要的作用。

表4：不同位深度和编码的消融实验。sRGB-dark 表示图像是从相应的 RAW 图像中得来的。值得注意的是，我们将14 位 RAW 图像量化为不同颜色编码的 RAW 图像（例如 8、10 和 12 位）来模拟各种颜色编码，可能与直接获取得到的相应位的图像不同。

低照度RAW图像合成方法（Low-light Synthetic RAW Pipeline）:

反向处理将sRGB图像反转为合成RAW图像，噪声注入模拟了由传感器有限光子数和缺陷造成的破坏。如表 2 所示，它们分别带来了 2.2 AP 和 3.5 AP 性能改进。此外，当我们将这两个步骤结合在一起时，准确率从 31.6 AP 增加到 38.0 AP，非常接近使用真实 RAW-dark 图像进行训练的结果—— 39.0 AP 。它表明我们的合成方法能够生成逼真的 RAW 图像。当我们采用 COCO 数据集时，结果的趋势相似，显示出低照度 RAW 合成方法令人满意的泛化能力。

自适应权重下采样层（Adaptive weighted downsampling(AWD) layer）:

如表 1 所示，与基线模型相比，AWD 减少了特征扰动，这意味着特征去噪的有效性。虽然传统的滤波器也是有用的，但它们可能会模糊前景信号，并不是最优的。AWD通过预测内容感知滤波器来避免这个问题。它超越了所有传统的低通滤波器，在LIS和COCO上训练时，AP分别提高了1.3和1.6。表 5 验证了 AWD 中全局池化分支的有效性。

表5：自适应权重下采样层中全局池化分支的消融实验。

为了找出所提出的 AWD 层的最佳内核大小，我们对从 2 × 2 到 5 × 5 的不同内核大小进行了实验。如表 6 所示，AWD 层可以带来 0.4-1.3 AP 改进，3 × 3 的内核大小显示了最好的结果，比基线好 1.3 AP。

表6：自适应加权下采样层核大小的消融实验。我们使用合成 LIS 训练集进行训练。表中为 LIS 测试集实验结果。

与注意力机制对比（Comparison with attention mechanisms）:

这里，我们将 AWD 层与注意力机制进行比较，并讨论它们的本质差异。首先，AWD 层的动机不同。注意力机制启发于人类的感知系统，其不平等地对待不同信息，因此，给输入分配不同的权重，以便更加关注重要信息。而 AWD 层的动机是，传统的低通滤波器（例如高斯滤波器）可以抑制高频噪声。为了抑制高频特征噪声并保留细节，设计了一个 AWD 层来预测输入可变的低通滤波器。其次，AWD 层在技术层面上是不同的。CBAM这样的注意力机制旨在改进卷积块，而 AWD 层是为了改进卷积块之间的下采样操作，这使得它们相互无关和互补。因此，AWD 层可以进一步稳定提升基于注意力的模型的性能，如表 7 所示。在表 7 中，我们将AWD与CBAM进行了比较。我们观察到两个有趣结果，且与分析一致。首先，AWD相比于CBAM，可以帮助基线模型取得更好的结果（39.3 AP 与 38.7 AP）。其次，AWD 进一步将 CBAM 的性能提高了 1.3（从 38.7 AP 到 40.0 AP），这与对基线模型的改进程度相同，AWD也将基线提高了 1.3（从 38.0 AP 到 39.3 AP）。这些结果表明 AWD 带来的改进完全与 CBAM 无关。此外，我们对不同的注意力机制进行了更多的实验，包括非局部（non-local）和挤压激励（squeeze-and-excitation, SE），分别是空间注意力和通道注意力。根据表 7 中的结果，可得出相同的结论，即 AWD 相比 non-local 和 SE 可帮助基线模型取得更好的结果，AWD 可以进一步稳定地提高non-local和 SE。

面向平滑卷积块（Smooth-oriented convolutional block, SCB）:

SCB显式地使用一个分支来学习使用平滑滤波器减少特征噪声。推理阶段，SCB 可以折叠为正常卷积层，这意味着它在不增加计算成本的情况下提升了模型。在这里，我们尝试用不同的传统平滑滤波器替换面向平滑卷积 (SConv)来进行比较。如表 8 所示，使用高斯或均值滤波器也为低光实例分割带来了性能改进。但是由于它们的滤波器权重固定，它们无法以灵活的方式学习并处理特征噪声。并且 SConv 可以在训练期间进行优化，以便为每个通道学习最合适的滤波器权重并实现更好的性能。

表8：面向平滑滑卷积块的消融实验。SConv 表示面向平滑卷积块。我们使用合成 LIS 训练集进行训练。表中结果为 LIS 测试集实验结果。

干扰抑制 VS 感知损失（Disturbance suppresion vs Perceptual loss）:

在这里，我们将干扰抑制学习与感知损失进行比较，以进行低照度实例分割。感知损失采用师生结构进行学习，其预训练的教师模型从干净图像中提取干净特征来监督学生模型处理噪声图像。与感知损失相比，所提出的干扰抑制学习展现出两个有益的特征。首先，干扰抑制学习不需要预训练教师模型，这使得我们的训练更简单、更快。其次，干扰抑制学习可以从干净图像和噪声图像中学习判别特征，而感知损失中的学生模型只能看到噪声图像，不能充分利用干净的图像。因此，无论图像是否被噪声破坏，干扰抑制学习都能保持稳定的精度。如表 9 所示，在 RAW-dark 上，干扰抑制学习将 AP 提高了 0.9，而感知损失仅带来了 0.3 的改进。在RAW-normal上，扰动抑制学习 AP提升了1.9，而感知损失提升了0.4。这些结果验证了上述分析。

表9：干扰抑制学习(DSL)和感知损失(PL)的消融实验。我们使用合成 LIS 训练集进行训练。表中结果为 LIS 测试集实验结果。

额外在正常光照数据集上的消融实验（Extra ablation studies on normal0light dataset）：

此外，我们还进行了一系列实验来评估 AWD、SCB 和 DSL 对正常光数据集 COCO 的影响。我们在 COCO上训练 Mask R-CNN 12 个 epoch，ResNet-50-FPN 作为主干网络。如表 10 所示，AWD 层在没有额外增加东西的情况下将性能提高了 1.0 AP。这意味着， AWD 层通过精心设计下采样过程还能提高网络在正常光照条件下的鲁棒性。至于 SCB，它在训练期间添加了一个分支来学习平滑滤波器，并且可以通过线性组合将其折叠回正常的 3×3 卷积层。它有助于卷积块抑制由图像噪声引起的高频特征噪声。但在COCO数据集的正常光图像中，图像噪声是不可感知的。因此，SCB 在 COCO 上实现了微小的提升。我们进一步评估了DSL对于正常光图像的有效性。我们使用噪声注入来合成弱光噪声图像。有趣的是，虽然它是针对低照度任务提出的，但它也可以提高正常光下的性能。可能的解释是： 1) DSL 推动模型学习噪声不变特征，其更具辨别力。2) DSL 使模型学习干净图像及其对应的噪声图像，噪声图像可以看作是一种数据增强。

表10：正常光照条件下自适应权重下采样(AWD)、面向平滑卷积块(SCB)和干扰抑制学习(DSL)的消融实验。模型在 COCO 训练集上训练，表中结果为COCO 验证集实验结果。

学习到的滤波器权重可视化（Visualization of learned filter weights）：

如图 9 所示，我们可视化了由AWD 层预测到的滤波器权重。可以看出，预测的滤波器权重对场景内容的边缘具有很高的标准差，背景的标准差较低。高方差对应于较少的模糊，而低方差对应于更多的模糊。这意味着， AWD 层可以正确预测内容感知过滤器以较少地模糊高频场景内容（例如，场景内容的边缘）以保留前景信号，并较多的模糊低频背景内容以抑制特征噪声。

图9：自适应权重下采样(AWD)层预测滤波器权值的可视化结果。第一行为输入图像，我们将 RAW 图像转换为 sRGB 图像进行可视化。第二行显示了每个位置学习到的滤波器权重的可视化标准差，颜色更亮意味着预测的滤波器权重的标准差更高。

特征图可视化（Visualization of feature maps）：

如图 10 所示，我们可视化了网络的高级特征。可以看出，当图像有噪声时，所提出的方法有助于减少特征扰动并保留对场景内容的语义表示，这对于精确的低照度实例分割很重要。该可视化结果验证了所提出方法的有效性。

图10：可视化高级特征。残差显示了干净特征与噪声特征之间的差异。可以看出，当图像有噪声时，所提出的方法有助于减少特征干扰，并保留对场景内容的语义表示。

总结（Summary）：

总而言之，RAW 图像在低照度实例分割任务中显示出比 sRGB 图像更好的潜力。当只有正常光 sRGB 图像可用时，低照度合成 RAW 方法为AP带来了6.2-6.4的改进（见表 2）。此外，所提出的方法在增加较小额外计算成本的前提下，实现了对普通模型AP 2.8-3.7的提升，而用 ResNet-101-FPN 替换 ResNet-50-FPN 仅给AP带来了1.5-1.7的提升（见表 3）。这些结果强有力的证明了所提出的方法的有效性和高效性。

5.3 方法对比（Method Comparisons）

在本节中，我们将所提出的方法与三种类型的处理流程进行比较，即直接预测相机输出、预测增强图像以及预测增强并去噪的图像。

我们选择具有代表性的传统方法(直方图均衡化)和基于学习的方法(GLADNet 、Retinex-Net 、EnlightenGAN、Zero-DCE、SID、REDI)方法作为增强器，并采用SOTA——SGN作为降噪器。考虑到一些竞争方法 SID 和 REDI 已经具有明确的去噪机制，因此我们不附加一个额外的去噪步骤。请注意，SID 、REDI 和所提出的方法将 RAW 图像作为输入，而其余方法将 sRGB 图像作为输入。所有方法如图 11 所示。

图11：对比方法。我们在表 11 中展示了与不同处理流程的比较。可以看出，所提出的方法是直接和简洁的。

公平起见，所有处理流程都使用相同的实例分割模型（Mask R-CNN）。为了准确反映实际使用和无偏差地评估所提出的方法在真实的低照度环境中的表现，我们假设 LIS 数据集在训练期间永远不会被任何方法看到，即我们将整个 LIS 数据集作为测试集。

如表 11 所示，在没有任何预处理步骤的情况下，基线正常实例分割模型只有 19.8 AP，在弱光条件下的准确率有限。在将增强子转换为管道后，我们直观地期望性能改进，但准确度保持不变（使用直方图均衡化 (Gonzalez et al., 2002) 和 Zero-DCE (Guo et al., 2020)）甚至下降（使用 GLADNet (Wang et al., 2018a)、Retinex-Net (Wei et al., 2018) 和 EnlightenGAN (Jiang et al., 2021)）。我们猜测原因是这些增强子只提高了整体亮度，而不能处理噪声。为了验证它，我们进一步向管道引入降噪器，总体精度显着提高，例如 Zero-DCE (Guo et al., 2020) 加上 SGN (Gu et al., 2019) 导致 6.7 AP 增益。请注意，用于比较的这些方法使用相机输出。然后，我们还使用SID (Chen et al.， 2018)和REDI (Lamba and Mitra, 2021)进行了实验，可以从弱光RAW图像中恢复sRGB图像。数值结果非常好，即SID为27.2 AP (Chen et al.， 2018)，优于基线7.4分。这意味着使用 RAW 图像的优越性。

表11：低照度实例分割的定量比较。为了展现模型在不可控的现实世界中的性能表现，所有模型都仅使用 COCO 数据集进行训练，并在 LIS 数据集的测试集上进行评估。我们的方法在合成 COCO数据集（由低照度RAW合成方法合成）上进行训练，并在 LIS 数据集中的 RAW-dark 图像上进行评估。其他流程中的Mask R-CNN 所使用的 COCO 原始图像经过了优化，并使用预处理方法对LIS 数据集中的 sRGB 图像增强，而后再进行评估。

尽管这些增强和去噪步骤显着提高了低照度实例分割性能，但我们的方法在没有额外的预处理步骤的情况下获得了最好的定量结果。此外，所提出方法的推理速度优于所有其他方法。它的速度非常接近原始的 Mask R-CNN。此外，图 12 所示的定性结果表明，即使在具有挑战性的场景中，所提出的方法也可以始终如一地召回大多数目标。

5.4 LIS数据集上的微调（Finetuning on LIS Dataset）

为了更全面地比较所提出的方法，我们在表 11 中选择了四个最佳方法以进一步比较。在这里，所有方法都可以访问 LIS 数据集的训练集进行微调，并在 LIS 数据集的测试集上进行评估。此外，我们实现了一个联合优化的方法（U-Net + Mask R-CNN， U-Net 被训练从低照度图像中恢复出干净的正常光图像）加入竞争。

结果如表12所示。可以看出，在LIS数据集中的真实微光图像对的帮助下，所有管道都显示出更好的性能。这表明低光图像数据集对于解决低光实例分割任务很重要和必要。联合优化的管道优于所有其他管道，但与所提出的方法相比仍然表现不佳。此外，我们的解决方案显示出比联合优化和其他管道更高的推理速度。

表12：在LIS数据集上微调后，低照度实例分割的定量比较。所有方法都可以访问 LIS 数据集的训练集以进行微调，并在 LIS 数据集的测试集上进行评估。我们的方法是在 RAW-dark 和 RAW-normal 的图像对上训练的，并在 LIS 数据集中的 RAW-dark 图像上进行评估。虽然“Enhance + Denoise”和“Integated Enhance + Denoise”流程中的 Mask R-CNN 使用增强后的 sRGB/RAW-dark 图像（ LIS 数据集经预处理后）进行训练/微调和评估。U-Net 和 Mask R-CNN 在“联合优化”流程中，在 LIS 数据集中的 RAW-dark 图像上进行联合优化和评估，其中 U-Net 预处理器将 RAW-Normal 图像作为Ground-Truth，由L2损失进行监督。

5.5 不同实例分割模型评估（Evaluation with Different Instance Segmentation Model）

我们注意到，所提出的方法与模型无关，即它应该能很高地应用在现有的方法中。在这里，除了Mask R-CNN之外，我们还使用基于CNN的PointRend和最近的基于transformer的 Mask2Former 进行了一系列额外的实验。

同样，如表 14 所示，将增强器（EnlightenGAN和 Zero-DCE）和降噪器加入处理流程中可以带来显著的提升。我们还将我们的方法与SID和REDI进行了比较，可以从 RAW 图像中恢复 sRGB 图像。虽然与基线模型相比，它们大大提高了性能，但我们的方法取得了最好的结果。请注意，我们的方法在训练期间没有看到任何真实的原始图像，并且可以在没有任何预处理步骤的情况下进行推理。但是SID和REDI需要额外的真实环境下的配对 RAW 图像进行训练。

表14：使用PointRend和Mask2Former作为实例分割模型时，低照度实例分割的定量比较。ResNet-50-FPN作为主干网络。简单起见，我们选择了四个最好的方法作为竞争对手。表中结果为 LIS 测试集实验结果。训练和测试的设置与表 11 相同。

5.6 不同的主干网络评估（Evaluation with Different Backbones）

为了进一步验证所提出的方法，我们还对大量最近提出的主干网络进行了实验，包括基于transformer 的 Swin Transformer 和基于 CNN 的 ConvNeXt 。

如表13所示，尽管所提出的面向平滑的卷积块不适用于基于transformer 的 Swin Transformer，但与其他竞争对手相比，所提出的方法仍然一致显示出优势。ConvNeXt的结果也得出了相同的结论。

表13：使用 Swin-T和 ConvNeXt-T作为主干网络时，低照度实例分割的定量比较。Mask R-CNN 作为实例分割模型。简单起见，我们选择了四个最好的方法作为竞争对手。表中结果为 LIS 测试集实验结果。训练和测试的设置与表 11 相同。

5.7 扩展至低照度目标检测（Extension to Low-Light Object Detection）

除了低照度实例分割外，所提出的方法和数据集还可以应用于低照度环境下的目标检测。我们将经典的 Faster R-CNN作为检测器进行实验，结果如表 15 所示。我们可以看到趋势和结论类似于低照度实例分割。它展现了所提出方法的有效性和泛化能力。

表15：低照度目标检测的定量比较。主干网络是 ResNet-50-FPN 。表中结果为 LIS 测试集实验结果。训练和测试的设置与表 11 相同。

6、结论（Conclusion）

本文探究了在极低照度的RAW图像上进行端到端的实例分割。为解决模型在低照度图像上的退化现象，我们提出了自适应权重下采样层、面向平滑卷积块和干扰抑制学习，以解决由低照度图片中噪声造成的特征噪声。它们依次可以实现，减少下采样、卷积操作中的特征噪声和帮助模型学习抗干扰的特征。值得一提的是，所提出的方法在计算成本低的前提下，遥遥领先SOTA。

此外，我们收集并标注了一个大范围的真实场景低照度实例分割数据集，其包含了超过2000对带有实例级、像素级标注的低/正常照度的图像对。它可以作为低照度条件下高级任务的基准（benchmark）。我们希望，我们的数据集和实验结果在未来可以启发更多极低照度视觉领域的工作。

邱L宁X

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫