《Learning to See in the Dark》论文超详细解读（翻译＋精读）

小西柚code

已于 2024-06-05 11:05:22 修改

阅读量1.1k

点赞数 31

分类专栏：论文阅读文章标签：深度学习计算机视觉人工智能

于 2024-06-05 11:02:59 首次发布

本文链接：https://blog.csdn.net/m0_52275819/article/details/139443824

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前言

最近读到《Learning to See in the Dark》这篇论文，觉得很有意思，所以在这里记录一下。

ABSTRACT—摘要

翻译

低光成像是一项挑战，主要由于光子数量少和信噪比(SNR)低。短曝光图像容易受到噪声影响，而长曝光虽能增加亮度，却可能导致模糊且往往不切实际。虽然已提出多种去噪、去模糊和增强技术，但在极端条件下，如夜间视频速率成像时，它们的有效性有限。为了支持基于学习的低光图像处理流程的开发，我们引入了一组包含原始短曝光低光图像及其对应长曝光参考图像的数据集。利用这一数据集，我们基于全卷积网络的端到端训练，开发了一套低光图像处理流程。该网络直接在原始传感器数据上操作，取代了大部分传统图像处理流程，后者在处理这类数据时往往表现不佳。我们在新数据集上报告了有前景的结果，分析了影响性能的因素，并突出了未来工作的机会。

精读

背景：暗光条件下，图像质量受到巨大影响。
本文探讨问题：低光照条件下的成像问题。
本文采用方法：作者提出了一个基于卷积神经网络的端到端训练模型，该模型直接对原始传感器数据进行操作，并取代了传统的图像处理流程中在处理这类数据时表现不佳的部分。
达到的效果：该方法在新数据集上表现出了很好的效果，并且分析了影响性能的因素，为未来的研究提供了机会。

一、INTRODUCTION—简介

翻译

任何的图像成像系统都存在噪声，但这很大地影响在弱光条件下图像的质量。高ISO 可以用于增加亮度，但它同时也会放大噪音。诸如缩放或直方图拉伸等图像后处理可以缓解这种噪声影响，但这并不能从根本上解决低信噪比 (SNR) 问题。在物理学上，这可以解释为在弱光条件下增加SNR，包括开放光圈，延长曝光时间以及使用闪光灯等，但这些也都有其自身的缺陷。例如，曝光时间的延长可能会引起相机抖动或物体运动模糊。

众所周知，暗光条件下的快速成像系统一直都是计算摄影界的一大挑战，也是一直以来开放性的研究领域。目前，许多关于图像去噪，去模糊和低光图像增强等技术相继提出，但这些技术通常假设这些在昏暗环境下捕获到的图像带有中等程度的噪音。相反，我们更感兴趣的是在极端低光条件下，如光照严重受限 (例如月光) 和短时间曝光 (理想情况下是视频率) 等条件下的图像成像系统。在这种情况下，传统相机的处理方式显然已不适用，图像必须根据原始的传感器数据来重建。

为此，本文提出了一种新的图像处理技术：通过一种数据驱动的方法来解决极端低光条件下快速成像系统的挑战。具体来说，我们训练深度神经网络来学习低光照条件下原始数据的图像处理技术，包括颜色转换，去马赛克，降噪和图像增强等。我们通过端对端的训练方式来避免放大噪声，还能表征这种环境下传统相机处理的累积误差。

据我们所知，现有用于处理低光图像的方法，在合成数据或真实的低光图像上测试都缺乏事实根据。此外，用于处理不同真实环境下的低光图像数据集也相当匮乏。因此，我们收集了一个在低光条件下快速曝光的原始图像数据集。每个低光图像都有对应的长曝光时间的高质量图像用于参考。在新的数据集上我们的方法表现出出色的结果：将低光图像放大300倍，成功减少了图像中的噪音并正确实现了颜色转换。我们系统地分析方法中的关键要素并讨论未来的研究方向。

下图1展示了我们的设置。我们可以看到，在很高的ISO 8,000条件下，尽管使用全帧的索尼高光灵敏度相机，但相机仍会产生全黑的图像。在ISO 409,600条件下，图像仍会产生朦胧，嘈杂，颜色扭曲等现象。换而言之，即使是当前最先进的图像去噪技术也无法消除这种噪音，也无法解决颜色偏差问题。而我们提出的全卷积网络结构能够有效地克服这些问题。

图1卷积网络下的极端低光成像。黑暗的室内环境：:相机的照度 <0.1 lux。Sony α7S II传感器曝光1/30秒。左图：ISO 8,000相机产生的图像。中间图：ISO 409,600相机产生的图像，图像受到噪声和颜色偏差的影响。右图：由我们的全卷积网络生生的图像。

精读

问题背景：

在暗光条件下，图像成像系统会受到噪声的严重影响，导致图像质量下降。
传统的解决方案都有其局限性。（如提高ISO、延长曝光时间和使用物理增强手段，可能引入相机抖动或运动模糊等问题）
现有的图像处理技术大多针对中等噪声水平的图像，而在极端低光环境下的快速成像仍是一个未充分解决的挑战。

核心：利用深度神经网络进行数据驱动的图像处理，改进极端低光环境中的快速成像质量。通过端到端训练，该方法整合颜色转换、去马赛克、降噪及图像增强等功能，直接从低光原始数据重建高清图像，有效控制噪声，优化了传统技术的局限。

贡献与创新点：

新方法提出：介绍了一种新的图像处理技术，特别适用于极端低光环境。
数据集构建：鉴于缺乏适用于此类研究的真实低光图像数据集，研究团队自行收集了一个包含快速曝光的原始图像数据集，并配有长曝光时间的高质量参考图像，为研究提供了实证基础。
实验验证与性能展示：在新数据集上的实验表明，该方法能有效提升图像质量，即使在ISO高达409,600的极端条件下，也能显著减少噪音，实现准确的颜色转换，并保持图像清晰度，展现了300倍的图像放大能力。

二、RELATED WORKS—相关工作

在文献中对低光图像的计算处理进行了广泛的研究。我们提供了现有方法的简要综述。

2.1 Image denoising—图像降噪

翻译

图像去噪是低级视觉领域一个发展成熟的话题。多种方法已被提出，利用的技术包括总变分[36]、小波域处理[33]、稀疏编码[9, 28]、核范数最小化[12]以及三维变换域滤波（BM3D）[7]等。这些方法通常基于特定的图像先验知识，如平滑性、稀疏性、低秩或自相似性。研究者还探索了深度网络在去噪中的应用，涉及堆叠的稀疏去噪自编码器（SSDA）[39, 1]、可训练的非线性反应扩散（TNRD）[6]、多层感知器[3]、深度自编码器[26]以及卷积网络[17, 41]。当针对特定噪声水平进行训练时，这些数据驱动的方法能与诸如BM3D和稀疏编码等经典技术的最先进成果相竞争。遗憾的是，大多数现有方法都是在合成数据上进行评估的，比如添加了高斯或椒盐噪声的图像。最近一项使用真实数据的细致评估发现，在真实图像上，BM3D胜过了一些较新的技术[32]。同时，联合去噪和去马赛克也得到了研究，包括最近使用深度网络的工作[15, 10]，但这些方法是在合成的Bayer模式和合成噪声上进行评估的，而非在极端低光环境下收集的真实图像上。

除了单幅图像去噪外，多幅图像去噪也被考虑，因为能从场景中收集更多信息，从而达到更好的效果[31, 23, 19, 24, 14, 29]。特别是，刘等人[24]和Hasinoff等人[14]建议对来自同一场景的一系列图像进行去噪。尽管这些流程通常有效，但可能相当复杂，涉及到参考图像选择（“幸运成像”）和跨图像的密集对应估计。所以我们专注于一条互补的研究路线，研究单幅图像处理可以被推进到何种程度。

精读

现有方法的不足：大多数现有方法都是在合成数据上进行评估的，而非真实图像，在真实图像上，BM3D胜过了一些较新的技术。而通过多幅图像去噪，流程虽然有效，但可能相当复杂。

思路：专注于一条互补的研究路线，研究单幅图像处理可以被推进到何种程度。

2.2 Low-light image enhancement—低光图像增强

翻译

为了提升低光环境下的图像对比度，已经有许多技术手段被应用。其中一种经典方法是直方图均衡化，它能够平衡整张图像的亮度分布。另一种广泛应用的技术是伽玛校正，该技术能够在提亮较暗区域的同时，压缩亮度较高的像素点。更先进的方法则会进行更全面的分析和处理，比如利用反向暗通道先验[8, 29]、小波变换[27]、视网膜模型[30]以及光照图估计[13]等技术。然而，这些方法通常假定图像本身已经较好地表现了场景内容，并没有明确地对图像噪声进行建模，一般仅在后期处理时采用现成的去噪技术。

相比之下，我们关注的是极端低光成像情况，这时候图像会有很大的噪声和颜色失真问题，这些问题已经超出了现在常用的图像改善技术能处理的范围。

精读

结论：现在常用的图像改善技术不能很好的解决极端低光成像情况下图像的噪声和颜色失真问题。

2.3 Noisy image datasets—带噪声图像数据集

翻译

尽管图像去噪领域已有大量研究，但大多数现有方法都是在合成数据上进行评估的，比如原本干净的图像上叠加高斯噪声或椒盐噪声。RENOIR数据集[2]被提出用于以真实的含噪图像来衡量去噪效果。然而，文献中提到[32]，RENOIR数据集中的图像对存在空间不对齐的问题。在低光条件下，人们曾尝试使用图像序列（称为“连拍”）来减少噪声[24]，但相关的数据集中并没有可靠的地面真实数据（即未受噪声影响的原始图像）。Google的HDR+数据集[14]并未聚焦于极端低光环境下的成像：该数据集中的大部分图像都是在白天拍摄的。最近发布的达姆施塔特噪声数据集（DND）[32]旨在满足去噪领域对于真实数据的需求，但这些图像同样是在白天采集的，不适合用来评估低光图像处理的效果。据我们所知，目前还没有公开包含原始的低光图像及其对应的地面真实数据的数据集。因此，我们收集了这样一个数据集，以支持该领域中系统性的、可重复的研究工作。

表1. SID 数据集包含5094个原始的短曝光率图像，每张图像都有一个长曝光的参考图像。图像由顶部和底部两台相机收集得到。表中的指标参数分别是(从左到右)：输入与参考图像之间的曝光时间率，滤波器阵列，输入图像的曝光时间以及在每种条件下的图像数量。

精读

带噪声图像数据集现状：目前还没有公开包含原始的低光图像及其对应的地面真实数据的数据集。

三、See-in-the-Dark Dataset —“夜视”数据集

翻译

我们新收集了一个数据集，用于训练和评估针对原始低光图像的单幅图像处理技术。这个名为“夜视”（SID）的数据集包含了5094张原始短曝光图像，每张图像都配有一个相应的长曝光参考图像。请注意，多张短曝光图像可能对应同一个长曝光参考图像。例如，我们采集了一系列短曝光图像序列以评估连拍去噪方法。序列中的每张图像都被视为一个独立的低光图像，因为每张这样的图像都含有真实的成像瑕疵，对训练和测试都有价值。SID数据集中独立的长曝光参考图像共有424张。

该数据集既包含室内图像也包含室外图像。室外图像通常在夜晚，月光或街灯照明下拍摄。室外场景中相机处的照度一般在0.2勒克斯到5勒克斯之间。而室内图像则更暗，它们在关闭常规灯光的封闭房间中拍摄，仅设置了微弱的间接光源。室内场景中相机处的照度一般在0.03勒克斯至0.3勒克斯之间。

输入图像的曝光时间设定在1/30秒到1/10秒之间。相应地，参考（地面真实）图像的曝光时间是前者的100到300倍，即10到30秒。由于参考图像所需的曝光时间较长，数据集中所有的场景都是静态的。数据集的概要总结见表1，图2展示了一小部分参考图像样例。

图2展示了SID数据集中的示例图像。上方两行是户外场景图像，下方则是室内场景图像。每组图像前方展示的是长曝光参考图像（即地面真实图像），而后方显示的是短曝光输入图像（看起来几乎是全黑的）。拍摄时，户外环境下的照度一般在0.2到5勒克斯之间，而室内环境则在0.03到0.3勒克斯之间。

每个条件下的图像中，大约有20%被随机选作测试集，另外10%选为验证集。

我们使用了两款相机进行图像拍摄：索尼α7S II和富士X-T2。这两款相机搭载了不同的传感器——索尼相机配备的是全画幅拜耳传感器，而富士相机则采用APS-C X-Trans传感器。这样的配置有利于在由不同滤色阵列产生的图像上评估低光图像处理流程。索尼相机的图像分辨率为4240×2832，富士相机则为6000×4000。

索尼相机拍摄的图像使用了两个不同的镜头。所有相机均安装在稳固的三脚架上，以避免震动影响。考虑到反光镜翻转可能带来的震动，我们选择了无反相机。在每个场景中，我们都对光圈、ISO感光度、焦点和焦距等相机设置进行了调整，以确保参考图像（长曝光图像）的质量最优。在拍摄了一张长曝光参考图像后，我们通过智能手机远程应用程序将曝光时间缩短100到300倍，以此连续拍摄短曝光图像序列。在拍摄长曝光和短曝光图像之间，相机位置未做任何变动。我们采集了短曝光图像序列，以便与理想化的连拍图像处理流程进行比较，后者能从完美的图像对齐中获益。

尽管长曝光参考图像可能仍含有一些噪声，但其感知质量已足够高，足以作为地面真实数据。我们的目标是服务于那些旨在在低光条件下生成感知上优质图像的应用，而不是彻底去除所有噪声或最大化图像对比度。

精读

总结：构建了包含了5094张原始短曝光图像的SID数据集，用于训练和评估针对原始低光图像的单幅图像处理技术。

四、Method—方法

4.1 Pipeline—处理流程

翻译

从图像传感器获取原始数据后，传统的图像处理流程会依次应用一系列模块，如白平衡、去马赛克、去噪、锐化、色彩空间转换、伽玛校正等。这些模块通常针对特定相机进行调优。Jiang等人[18]提出了使用大量局部、线性和学习得到的(L3)过滤器来模拟现代成像系统中复杂的非线性处理流程。然而，无论是传统流程还是L3流程都无法成功应对快速低光成像，因为它们无法处理极低的信噪比(SNR)。Hasinoff等人[14]描述了一种针对智能手机摄像头的连拍成像流程。该方法通过对多张图像进行对齐和混合可以产生良好效果，但引入了一定的复杂性，例如需要密集的对应估计，而且由于采用了“幸运成像”技术，可能不易扩展到视频捕捉。

我们提议使用端到端学习来进行快速低光图像的直接单幅图像处理。具体来说，我们训练一个全卷积网络(FCN)[22, 25]来完成整个图像处理流程。最近的研究表明，纯FCN可以有效地表示许多图像处理算法[40, 5]。受到这些工作的启发，我们探讨了将此方法应用于极端低光成像的可能性。与在传统相机处理流程产生的标准sRGB图像上操作不同，我们在原始传感器数据上进行操作。

图3展示了不同图像处理流程的结构。(a) 从上至下：传统图像处理流程、L3流程[18]以及连拍成像流程[14]。(b) 我们的流程。

图3(b)展示了所提流程的结构。对于拜耳阵列，我们将输入打包成四个通道，并在每个维度上将空间分辨率减半。对于X-Trans阵列（图中未显示），原始数据被安排在6x6的区块中；我们通过交换相邻元素将其打包成9个通道而非36个通道。我们减去黑色水平并按所需放大比例（例如x100或x300）对数据进行缩放。打包和放大的数据被输入到一个全卷积网络中。输出是一个12通道的图像，空间分辨率减半。这个半尺寸的输出通过亚像素层处理以恢复原始分辨率[37]。

初步探索后，我们专注于两种全卷积网络结构，它们构成了我们流程的核心：一种是最近用于快速图像处理的多尺度上下文聚合网络(CAN)[5]，另一种是U-net[35]。其他研究探索了残差连接[20, 34, 41]，但我们发现在我们的设置中这些并不有益，可能是因为我们的输入和输出采用了不同的色彩空间表示。影响我们架构选择的另一个因素是内存消耗：我们选择了能在GPU内存中处理全分辨率图像（例如，分辨率为4240×2832或6000×4000）的架构。因此，我们避开了需要处理小图像块并重新组装的全连接层[26]。我们的默认架构是U-net[35]。

放大比例决定了输出的亮度。在我们的流程中，放大比例是外部设定的，并作为输入提供给流程，类似于相机中的ISO设置。图4展示了不同放大比例的效果。用户可以通过设置不同的放大因子来调整输出图像的亮度。在测试时，流程执行盲噪声抑制和色彩转换。网络直接在sRGB空间输出处理过的图像。

图4展示了放大因子对SID数据集中一张室内图像片段（来自索尼x100子集）的影响。放大因子作为外部输入提供给我们的处理流程，类似于相机中的ISO设置。更高的放大因子会产生更明亮的图像。此图展示了使用不同放大因子时，我们流程的输出结果。

补充（选看）

拜耳阵列（Bayer Array）：Bayer阵列的由来及原理简介_拜尔阵列-CSDN博客
空间分辨率：指图像中能够区分的最小细节或空间单元的能力，也就是图像中能够分辨的两个相邻像素之间的最小距离。在数字成像中，空间分辨率通常由像素的数量和分布决定，像素越多，意味着在同一物理区域内可以记录的信息越精细，图像看起来就越清晰，细节更丰富。例如，如果一个相机的分辨率是4000×3000像素，这意味着在水平方向上有4000个像素点，垂直方向上有3000个像素点，这样的分辨率能够提供较高的空间分辨率，可以捕捉到更多细节。
若不清楚拜耳阵列将原始数据重新组织为四个通道，为啥这样做会使得每个通道的空间分辨率降低一半？可看个人理解：拜耳阵列（Bayer arrays）中为啥空间分辨率降低了一半-CSDN博客
X-Trans阵列处理：不同于拜耳阵列，X-Trans是一种更为复杂的彩色滤镜排列方式，通常在富士相机中使用，它以6x6的非规律模式排列RGB滤镜。在这个流程中，为了适应FCN的处理，不是简单地将每个像素的色彩信息独立放入通道，而是通过巧妙地交换相邻像素的颜色信息，将原本可能需要36个通道的数据压缩到9个通道，保持了较高的空间分辨率同时降低了计算复杂度。

精读

以前方法的不足：传统图像处理在低光环境下效果差，需多步骤优化且不适用于动态场景。先进方法如L3滤波和连拍成像虽有改进，但仍存在适应性或效率限制。

本文方法：引入端到端的全卷积网络直接处理低光单图像，绕过传统分阶段处理，能在传感器数据层级操作并允许用户调整输出亮度。

目的：旨在利用深度学习实现快速低光环境下的单图像高质量增强，提升处理效率与图像质量，满足动态和静态低光拍摄需求。

全卷积网络(FCN)：

通用架构：多尺度上下文聚合网络(CAN)和U-Net

策略：

对于Bayer阵列，将输入数据打包成四个通道，每维度的空间分辨率减半。
对于X-Trans阵列，则将原始数据排列成6x6块，并通过交换相邻元素将其打包成9个通道而不是36个。
减去黑色水平并按所需放大比例缩放数据（如x100或x300）。
经过打包和放大的数据被馈入FCN，其输出是一个空间分辨率为原图一半的12通道图像。随后，通过亚像素层处理该半尺寸输出以恢复原始分辨率。

4.2 Training—模型训练

翻译

我们从零开始训练网络，使用L1损失函数和Adam优化器[21]。在训练过程中，网络的输入是短曝光图像的原始数据，而地面真实数据是对应的长曝光图像，该图像已转换至sRGB色彩空间（通过libraw，一个原始图像处理库处理）。针对每种相机，我们训练一个单独的网络。放大比例设定为输入图像和参考图像之间的曝光差异（例如x100、x250或x300），这一设定同时应用于训练和测试阶段。在每次迭代中，我们随机裁剪一个512×512大小的图像块进行训练，并应用随机翻转和旋转以增强数据多样性。学习率初始设为10^-4，在训练2000轮次后降低到10^-5。整个训练过程持续4000轮次。

精读

训练细节：

损失函数：L1损失函数（也称为绝对误差损失）

优化器：Adam

学习率：初始10^-4，在训练2000轮次后降低到10^-5

训练周期：4000

五、Experiments—实验

5.1 Qualitative results and perceptual experiments—定性结果与感知实验分析

翻译

A.Comparison to traditional pipeline—与传统处理流程的对比

我们的初始基线是传统的相机处理流程，其中放大步骤在量化之前进行。（我们使用的放大比例与提供给我们自定义流程的比例相同。）与这个基线的定性比较在图5、图6和图7中展示。在极端低光条件下，传统流程产生的图像遭受严重的噪声干扰和色彩失真。

图5展示了以下内容： (a) 使用富士X-T2相机在夜间拍摄的图像，设置为ISO 800，光圈f/7.1，曝光时间为1/30秒。相机处的照度约为1勒克斯。 (b) 通过传统处理流程处理这些原始数据，并不能有效地应对数据中的噪声和色彩偏差问题。 (c) 利用同样的原始数据，我们方法得到的结果。

图6展示了将一个在SID数据集上训练的网络应用于由iPhone 6s智能手机拍摄的低光原始图像的情况。（a）是一张夜间使用iPhone 6s拍摄的原始图像，其ISO设置为400，光圈为f/2.2，曝光时间为0.05秒。这张图像已经过传统的图像处理流程处理，并调整了亮度以匹配参考图像的亮度。（b）是我们网络的输出结果，放大倍数为100倍。

B.Comparison to denoising and burst processing—与去噪及连拍处理的对比

自然而然的下一步是对传统流程输出的图像后处理应用现有的去噪算法。最近一项在真实数据上的细致评估显示，BM3D[7]在真实图像上的表现优于更多近期的去噪模型[32]。因此，我们选用BM3D作为参考的去噪算法。图7展示了结果。请注意，BM3D是一种非盲去噪方法，需要外在指定噪声级别作为一个参数。较小的噪声级别设置可能会在图像中留下感知上明显的噪声，而较大的设置则可能导致过度平滑。如图7所示，这两种效应可以在同一图像中共存，因为均匀的加性噪声模型并不适合真实的低光图像。相比之下，我们的流程执行盲噪声抑制，能够局部适应数据。此外，事后去噪并不能解决传统流程输出中存在的其他伪影，比如色彩失真。

图7展示了一个来自Sony x300集合的图像样本。（a）是经过传统图像处理流程及线性缩放处理的低光输入图像。（b）是在（a）的基础上再经过BM3D去噪处理的结果。（c）是我们方法处理的最终结果。

我们也与连拍去噪[24, 14]进行了比较。由于数据集中图像序列已经对齐，我们比较的连拍成像流程是理想化的：它得益于完美的对齐，而这是实际操作中难以实现的。既然对齐已经处理好，我们通过提取一个8张图像序列中每个像素的中值来进行连拍去噪。
如果使用参考长曝光图像作为基准来评估PSNR/SSIM指标，这对BM3D和连拍处理是不公平的，因为这些基线必须使用经过不同处理的输入图像。为了公平比较，我们通过使用参考图像的白平衡系数来减少色彩偏移。此外，我们逐通道调整提供给基线图像的平均值，使其与参考图像的平均值相同。这些调整使得基线产生的图像在颜色和亮度方面更接近参考图像。请注意，这意味着使用了特权信息来帮助基线方法。

为了评估由我们的流程、BM3D去噪以及连拍去噪生成图像的相对质量，我们基于亚马逊Mechanical Turk平台[4]上部署的盲随机A/B测试进行了感知实验。每次比较都会向一名MTurk工作者展示两个不同流程产生的对应图像，要求他们判断哪张图像质量更高。图像对随机排序，左右顺序随机，且不提供不同图像来源的指示。总共进行了1180次比较，由10名MTurk工作者完成。表2显示了工作者选择某个流程生成的图像超过基线生成图像的比率。我们在测试集的两个子集上进行了实验：Sony x300（难度较高）和Sony x100（较为简单）。在具有挑战性的x300集上，我们的流程明显优于基线；而在较简单的x100集上，则与基线相当。回想一下，由于提供给基线的数据进行了先验预处理，实验实际上偏向于基线。同时也要注意，连拍去噪利用了来自完美对齐的8张图像的信息。

表2展示了用于比较提出的流程与BM3D去噪和连拍去噪的感知实验结果。如文中所述，实验设计上对基线方法有利。即便如此，提出的单幅图像处理流程在具有挑战性的x300集上仍然显著优于基线，在较为简单的x100集上则与基线相当。

C.Qualitative results on smartphone images—智能手机图像的定性结果

我们预想，针对特定相机传感器定制的网络将会得到最佳的处理效果。然而，我们初步的跨传感器泛化实验表明，这并不总是必要的。我们已将一个在SID数据集的索尼子集上训练好的模型应用于由iPhone 6s智能手机拍摄的图像上，这款手机同样采用了拜耳滤色镜阵列和14位的原始数据。我们使用了一款应用手动设置ISO和其他参数，并导出原始数据进行处理。图6展示了一个有代表性的处理结果。传统处理流程处理的低光数据存在严重的噪点和色彩偏移问题。而我们采用的、在来自不同相机的图像上训练的网络，所得到的结果则具有良好的对比度、低噪点以及准确的色彩调整。

精读

这部分实验比较了所提出的基于卷积网络的低光图像处理流程与传统的图像处理流程、BM3D降噪方法以及基于连拍图像的降噪技术。关键发现包括：

与传统流程对比：在极端低光条件下，使用传统图像处理流程产生的图像遭受严重的噪声和色彩失真。而论文提出的方法能够显著改善这些缺点，生成具有高对比度、低噪声且色彩调整得当的图像。
感知实验：通过亚马逊Mechanical Turk平台进行了大量的人工感知测试，结果显示，相比于基线方法BM3D和连拍降噪，研究者的方法在索尼x300数据集（较具挑战性）上的表现远超前者，在索尼x100数据集（相对简单）上也达到了相近水平。值得注意的是，尽管对基线方法进行了有利的预处理（如颜色偏移校正和亮度匹配），论文的方法仍然展现出优势。
跨传感器泛化能力：研究者还将针对索尼相机训练的模型应用于iPhone 6s拍摄的低光原始图像，并取得了良好效果，显示了模型在不同传感器间一定的泛化能力，尽管为特定传感器定制的网络可能达到最佳性能。

5.2 Controlled experiments—控制实验

翻译

表3（第一行）报告了所提流程在峰值信噪比（PSNR）和结构相似性（SSIM）[38]方面的准确性。接下来，我们将描述一系列控制实验，用于评估流程中不同元素的效果。

A.Network structure—网络结构

我们首先比较了不同的网络架构。表3（第二行）显示了将我们默认的架构U-net[35]替换为CAN[5]后的结果。U-net在两个数据集上的PSNR值都更高。虽然CAN产生的图像具有更高的SSIM值，但它们有时会出现色彩丢失的问题。图8展示了一个来自Fuji x300集的图像片段。在这里，CAN未能正确恢复色彩。

图8展示了在Fuji x300测试集的一个图像片段上，不同网络架构的对比情况。(a) 使用CAN架构时，颜色未能正确恢复。(b) 使用U-net架构。可以放大查看细节。

B.Input color space—输入色彩空间

多数现存的去噪方法都是在经过传统图像处理流程处理过的sRGB图像上操作。我们发现，在极端低光环境下，直接在原始传感器数据上操作要有效得多。表3（第三行）显示了当我们的流程应用于传统流程产生的sRGB图像时的结果。

C.Loss functions—损失函数

我们默认使用L1损失函数，但也评估了许多替代的损失函数。如表3（第4行和第5行）所示，将L1损失替换为L2损失或SSIM损失[43]得到的结果相当。我们没有观察到这些损失函数中任何一个在感知上有系统性的优势。添加总变分损失并没有提高准确性，而添加GAN损失[11]则显著降低了准确性。

D.Data arrangement—数据排列

原始传感器数据将所有颜色存储在一个通道中。对于卷积神经网络来说，常见的原始数据排列方式是将颜色值打包到不同通道中，相应地降低空间分辨率，或者复制并遮罩不同颜色[10]。我们默认使用的是打包的方式。如表3（第6行）所示，对拜耳数据（索尼子集）进行遮罩处理相比于打包，得到的PSNR/SSIM较低；遮罩方法的一个典型感知伪影是输出中某些色调的丢失。

X-Trans数据在结构上与拜耳数据非常不同，它以6×6的区块排列。一种选择是将其打包成36个通道。而我们选择的是在相邻元素之间交换一些值，创造出一个3×3的模式，然后将其打包成9个通道。如表3（第7行）所示，6×6的打包方式得到的PSNR/SSIM较低；一个典型的感知伪影是色彩和细节的丢失。

E.Postprocessing—后处理

在初期的实验中，我们在参考图像的处理流程中包含了直方图拉伸（histogram stretching）。这意味着网络除了学习处理流程的其他部分之外，还需学习直方图拉伸。尽管尝试了许多网络架构和损失函数，我们并未成功训练出能够执行这项任务的网络。如表3（第8行）所示，当对参考图像应用直方图拉伸（从而网络必须学习直方图拉伸）时，网络的准确性显著下降。我们的实验表明，我们的流程不容易学习到在整个图像上模拟和操纵全局直方图统计，并且在面临此任务时容易过拟合训练数据。因此，我们将直方图拉伸排除在流程之外，改为可选的后处理步骤。图9展示了一个典型结果，其中试图学习直方图拉伸在测试时产生了可见的伪影。未拉伸的参考图像上的训练结果较暗但更干净。

图9显示了直方图拉伸的效果。（a）是Sony x100集中的一个参考图像，通过直方图拉伸生成。（b）是在直方图拉伸图像上训练得到的输出。结果显示墙面存在伪影。（c）是在未经直方图拉伸的图像上训练得到的输出，结果较暗但更纯净。（d）是（c）图在后处理中应用直方图拉伸后的图像。

精读

这部分实验通过一系列精心设计的实验条件，分析了流程中各个组件的影响，以量化方式评估了系统的性能：

准确度指标：报告了峰值信噪比(PSNR)和结构相似度(SSIM)作为衡量标准，展示了默认流程和其他变体的效果。
架构与损失函数影响：例如，将U-net结合条件性自适应归一化(CAN)替换默认架构，或改变损失函数从L1到SSIM，这些调整均对最终输出的PSNR和SSIM有不同程度的影响。
处理流程变化：实验还考察了直接从原始数据转换到sRGB空间、使用不同的滤波器尺寸等对结果的影响，结果显示这些调整对图像质量有显著影响。

六、Discussion—讨论

翻译

图10显示了极低光照条件下的信号恢复限制（室内，黑暗房间，0.2勒克斯）。(a) 是来自索尼x300系列的一张输入图像，经过传统处理流程并放大以匹配参考图像。(b) 对(a)应用了BM3D去噪，(c) 使用8张连续拍摄的图像进行突发去噪，但由于突发中所有图像存在严重的伪影，结果仍然不佳。(d) 我们网络处理的结果；仔细检查可发现细节有所损失。

快速低光成像是一项严峻的挑战，主要由于光子计数低和信噪比低。在微弱光照（小于1勒克斯）条件下，以视频帧率进行暗光成像，传统信号处理技术往往难以实现。本文中，我们介绍了“暗视”（See-in-the-Dark，SID）数据集，旨在支持开发数据驱动方法，使此类极端成像成为可能。利用SID，我们开发了一个简单的流程，改进了对低光图像的传统处理方式。所介绍的流程基于全卷积网络的端到端训练。实验结果显示了令人鼓舞的成效，成功实现了SID数据上的噪声抑制和正确的色彩转换。

本项工作为未来研究开辟了众多可能性。我们尚未涉及高动态范围（HDR）色调映射问题（见图1(c)中的饱和区域）。SID数据集的局限性在于它不包含人物和动态对象。所提出的流程结果并非完美，未来工作中仍有提升空间；特别是x300子集极具挑战性。图10(d)展示了所提方法输出中的一些伪影。另一个限制是放大比例需要外部设定。像自动ISO那样，从输入中推断一个合适的放大比例将非常有用。此外，我们目前假设针对特定相机传感器训练专用网络。我们跨传感器泛化的初步实验结果令人鼓舞，未来研究可以进一步探究低光成像网络的泛化能力。

未来工作的另一个方向是运行时优化。所提流程分别需0.38秒和0.66秒处理全分辨率的索尼和富士图像；这还不足以实现实时的全分辨率处理，尽管可以实时生成低分辨率预览图。

我们期待未来的工作能在图像质量上带来进一步的提升，例如通过系统优化网络架构和训练程序。我们希望SID数据集和我们的实验发现能激发并支持这种系统的探索研究。

精读

可参考研究方向：

运行时性能优化：针对不同分辨率和品牌的图像（如Sony和Fuji），进行算法优化，缩短处理时间，提升实时应用可行性。
自动增益控制：研发智能算法，根据输入图像自动推断合适的放大比例，类似相机的自动ISO功能，减少人为设定的需要。
数据驱动的极端低光成像技术：开发更多高效的数据驱动方法，利用像SID这样的数据集来提升在低光环境，尤其是视频帧率和极低照度条件下的成像质量。

谢谢浏览，如果对你有用点个赞呗！

小西柚code

关注

31
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
《Learning to See in the Dark》论文超详细解读（翻译＋精读）

低光成像是一项挑战，主要由于光子数量少和信噪比(SNR)低。短曝光图像容易受到噪声影响，而长曝光虽能增加亮度，却可能导致模糊且往往不切实际。虽然已提出多种去噪、去模糊和增强技术，但在极端条件下，如夜间视频速率成像时，它们的有效性有限。为了支持基于学习的低光图像处理流程的开发，我们引入了一组包含原始短曝光低光图像及其对应长曝光参考图像的数据集。利用这一数据集，我们基于全卷积网络的端到端训练，开发了一套低光图像处理流程。
复制链接

扫一扫

专栏目录