SDSD：Seeing Dynamic Scene in the Dark:A High-Quality Video Dataset with Mechatronic Alignment

mytzs123

已于 2025-04-12 15:06:50 修改

阅读量1.2k

点赞数 19

分类专栏：视频图像增强论文翻译文章标签：低光视频数据集

于 2024-01-29 11:41:44 首次发布

本文链接：https://blog.csdn.net/mytzs123/article/details/135908391

版权

视频图像增强论文翻译专栏收录该内容

30 篇文章

订阅专栏

微光视频增强是一项重要任务。以前的工作大多是在成对的静态图像或视频上进行训练。我们编译了一个由我们的新策略形成的新数据集，该数据集包含低光照和正常光照条件下动态场景的高质量空间对齐视频对。我们使用机电一体化系统构建了它，以精确控制视频捕获过程中的动态，并通过识别系统的均匀运动阶段，进一步在空间和时间上对齐视频对。除了数据集，我们还提出了一个端到端的框架，在该框架中，我们设计了一种自监督策略来减少噪声，同时基于Retinex理论增强照明。基于各种指标和大规模用户研究的大量实验证明了我们数据集的价值和方法的有效性。数据集和代码可在https://github.com/dvlab-research/SDSD.

增强在弱光下拍摄的曝光不足的图像和视频是计算机视觉中的一项长期任务。这是具有挑战性的，因为曝光不足的输入没有太多的场景结构信息。此外，暗区通常由低信噪比的噪声主导（见图1（a））。当增强这种输入时，结果可能会出现放大的噪声和不希望的视觉伪影，如图1（b）和（c）所示。对于从动态场景中拍摄的视频来说，这些问题可能会被夸大，因为在动态场景中，相机会大量移动。在本文中，我们专注于增强从低光动态场景中拍摄的曝光不足的视频。

已经提出了许多方法[34，18，9，6，25，20，4]来通过监督学习增强基于深度神经网络的曝光不足的图像/视频。通常，这些方法从在弱光条件下拍摄的图像/视频学习到在正常照明条件下拍摄图像/视频的映射。它们通常不处理动态场景的视频或严重曝光不足的视频被严重噪音破坏.一个主要原因是缺乏合适的数据集——对于动态场景，没有高质量的真实世界空间对齐的视频对。构建这样一个数据集的固有困难如下。首先，准备这种类型的视频对意味着需要拍摄两个视频——一个在低光下，另一个在正常光下，拍摄具有相同相机运动的同一动态场景。其次，它必须在空间和时间上精确对齐两个视频中的每一对对应帧。最后，虽然分束器可以用来减轻构建dynamicscene高质量数据集的一些限制，但捕获视频的质量将受到限制[14]。因此，现有的数据集，例如[1，5，27]的数据集主要提供成对的图像。Chen等人[4]构建了静态场景的配对视频数据集，Jiang等人[14]发布了质量有限的动态场景的配对数据集。我们在这项工作中的第一个目标是构建一个新的数据集，该数据集具有高质量的空间对齐视频对，以动态场景为特征。此外，对于弱光条件下的视频，噪声往往占主导地位。当我们点亮视频帧时，噪声可能会导致增强结果中的各种视觉伪影。在这项工作中，我们的第二个目标是开发一种新的解决方案，在考虑噪声的情况下增强曝光不足的视频。

我们的贡献如下。首先，我们发布了一个由150个高质量空间对齐视频组成的新数据集，这些视频在弱光和正常光照条件下具有相同的动态场景。为了确保视频的对齐和质量，我们构建了一个机电一体化对齐系统，其中我们组装了一个电动滑轨，并在其上安装了一个专业的摄像头；见图2。使用该系统，我们捕捉到了几乎相同相机运动的视频，从而减少了对齐低光和正常光视频以实现时间和空间一致性所需的工作量。构建的数据集被命名为SDSD数据集，代表“在黑暗中看到动态场景”

其次，我们制定了一个端到端的框架来增强曝光不足的视频。在我们的方法中，我们同时强调降噪和增强照明。对于降噪，我们制定了一种自监督的学习策略，而对于照明增强，我们基于Retinex理论[16]从每个输入帧预测照明图。

我们的数据集是第一个用于动态场景的高质量成对视频数据集，具有在弱光和正常光照条件下相同场景和运动的高分辨率视频对。在我们的新数据集上进行了训练，我们的框架在增强曝光不足的视频方面效果良好，即使在极低的光线条件下也是如此。为了评估和证明我们新方法的适用性和稳健性，我们进行了全面的实验，将其与我们构建的数据集和SMID数据集上的一套丰富的最先进的方法进行了比较[4]。此外，我们对100名参与者进行了大规模的用户研究，表明我们的结果在视觉上比以前的方法更令人愉悦和准确

2. Related Work

2.1. Low-light Image Enhancement and Datasets

为了增强弱光视频，可以逐帧方式应用图像增强方法。直方图均衡和伽玛校正是增加图像对比度和扩大动态范围的基本工具。最近，基于Retinex的方法[24，8，33，10，2，35]产生了令人印象深刻的低光图像增强效果。

近年来，基于学习的微光图像增强方法越来越受到关注[30，31，17，3]。王等人[23]提出通过学习照明图来增强曝光不足的照片。Sean等人[20]学习了三种不同类型的空间局部滤波器来增强微光图像。徐等人[28]提出了一种基于频率的分解和增强模型，用基于SID的微光数据集增强低图像[5]。杨等人[32]提出了一种半监督学习方法来恢复增强图像的线性带表示。

此外，无监督学习已被探索用于照片增强[6，13，9]。郭等人[9]训练了一个轻量级神经网络来估计给定图像的动态范围调整的逐像素和高阶曲线。然而，将图像增强算法应用于单个帧可能会导致闪烁问题。

为了提高增强性能，构建了各种数据集。Bychkovsky等人[1]编译了麻省理工学院的大型Adobe FiveK数据集，其中照片与专家修饰的结果配对，用于色调调整。Chen等人[5]使用U-Net收集短/长曝光对的原始图像，以学习原始图像增强系统。最近，Wei等人[27]提出了一个包含低光和正常光图像对的数据集，并提出了在该数据集上学习的深度RetinexNet。

2.2. Low-light Video Enhancement and Datasets

张等人[34]提出了一种使用感知驱动的渐进融合进行曝光不足视频增强的方法。Lv等人[18]提出了一种多分支网络来提取不同级别的特征，适用于图像和视频领域。姜等人[14]使用标准的CNN来学习从微光原始相机传感器数据到明亮视频的转换的增强映射。然而，这些方法不适用于严重的噪声条件。Xue等人[29]为特定的视频处理任务设计了一种流表示。王等人[25]从数学上定义了数码相机中实际的高灵敏度噪声，并提出使用递归神经网络基于噪声模型增强微光视频。Chen等人[4]收集了原始低光视频的静态数据集，并学习了视频的低光到正常光的转换。Danai等人[22]提供了一种数据合成机制从SID生成动态视频对[4]。尽管最近已经提出了几种用于视频增强的数据集，但它们具有不同的局限性。例如，[14，25，22]的数据集尚未发布。数据集仅由静态视频组成[4]，而视频质量在[14]中提出的数据集中受到限制。表1总结了当前具有代表性的数据集问题。与之前的工作相比，我们通过机电一体化对齐提供了高质量的数据集。它是公开的。此外，我们的方法是对当前基于学习的方法的补充。特别是，我们设计了一个新的网络来处理视频中曝光不足的暗区域，并能够同时校正这些区域的照明和噪声抑制。

3. SDSD Dataset with Mechatronic Alignment

针对动态场景的有监督的低光视频增强具有挑战性。来自真实动态场景的高质量空间配对视频数据需要大量的努力来收集。如果我们使用两个相机来收集配对的数据，第一种方法是使用相机姿态估计，如DPED[12]。但这种解决方案会导致错位。另一种方式是利用分束器来构建光学系统。然而，由于专业相机无法安装在这样的光学系统上，因此很难捕捉到高质量的视频。截至我们提交时，SMOID[14]的数据集尚未发布。与这些策略相反，我们通过使用如图4所示的电动滑轨来收集成对的视频，该滑轨可以在1mm误差范围内沿着路径重复移动。这使我们能够通过电动滑轨精确控制相机运动来管理场景中的动态。因此，我们可以用相机运行电动滑轨两轮，从一个场景中捕捉到一对不同光照条件下的视频，如图4所示。这样的一对可以稍后在空间上对齐。简而言之，收集数据包括捕获和对齐，这将描述如下。

3.1. Capture Video Data

为了控制相机的轨迹，我们在电动滑轨上设置了起点A和终点B。摄像机从A点开始拍摄视频，然后向B点移动。为了拍摄一对视频，我们将滑轨移动两轮。在第一轮中，我们拍摄了一个无噪声的明亮视频，具有良好的对比度和生动的色彩。在第二轮中，我们在相机镜头上安装了ND滤镜，并增加了相机ISO，以拍摄具有严重噪声的低光视频。

3.2. Align Video Data

根据摄像机轨迹对视频进行比对，共分为五个阶段（图4），即静止阶段I、加速阶段、匀速运动阶段、减速阶段和静止阶段II。静止阶段I和II中的摄像机分别位于点A和B，并且没有运动。加速阶段导致摄像机在运动轨迹开始时速度加快，减速阶段是在运动轨迹结束时在相机运动稳定的均匀移动阶段，将两个序列的帧对齐在同一位置很容易。因此，我们选择均匀移动阶段的帧来构建我们的视频数据集。首先，我们从正常/低光视频中找到均匀移动阶段的第一帧。然后，我们以逐帧方式从均匀移动阶段手动拾取对齐的帧，直到在减速阶段找到不对齐的帧。具体来说，我们采用帧的顶部、底部、左侧和右侧的参考对象来测量两个对齐帧的参考对象应位于相同位置的对齐情况。我们总共收集了150个配对视频序列，包括80个室外视频和70个室内视频。每个视频由100-300帧组成，分辨率为1920×1080。我们的数据集称为SDSD，图3显示了我们数据集中25%的数据和整个数据集的统计指标。在我们的数据集中，有各种场景，如城市景观、草原和室内。在图5中，我们提供了低光照和正常光照条件下室内/室外顺序的两个示例。