链接:https://ceciliavision.github.io/project-pages/project-zoom.html
一、简介
概述:现有的基于学习的超分辨率方法不使用真实的传感器数据,而是对经过处理的RGB图像进行操作。我们表明,这些方法丧失了对原始数据进行操作所能获得的细节和准确性,尤其是在放大远处物体时。使用真实的传感器数据进行训练的关键障碍是缺少ground-truth的高分辨率图像。我们展示了如何通过光学变焦获得这样的ground truth数据,并为真实的计算变焦提供一个数据集SR-RAW。我们使用SR-RAW来训练一个深度网络,该网络具有一种新的上下文双边损失,对输入和输出图像之间的轻微失调具有很强的鲁棒性。
贡献:
-
我们演示了使用真实的高位传感器数据进行计算变焦的实用性,而不是处理8位RGB图像或合成传感器模型。
-
我们介绍了一种新的数据集SR-RAW,它是第一个具有光学ground truth的超分辨率原始数据集。SR-RAW是用变焦镜头拍摄的。对于焦距较短的图像,长焦距图像作为光学ground truth。
-
我们提出了一种新的上下文双边损失(CoBi)处理稍微失调的图像对。CoBi用加权空间意识来考虑局部上下文相似性。
二、主要内容
1、Dataset With Optical Zoom Sequences
1.1 Data Capture with a Zoom Lens
-
我们使用24-240毫米变焦镜头来收集不同光学变焦水平的原始图像对。每对图像形成一个输入-输出对,用于训练模型:以短焦距原始传感器图像作为输入,以长焦距RGB图像作为超分辨率的基础。
-
为了提高数据采集效率,我们在每个场景的7个光学变焦设置下采集了7幅图像。来自7幅图像序列的每一对图像形成一个数据对,用于训练特定的缩放模型。我们总共收集了500个室内外场景的序列。ISO从100到400。
-
相机设置:
-
景深(DOF)随着焦距的变化而变化,调整孔径大小使每个焦距的DOF相同是不现实的。我们选择一个小的光圈尺寸(至少f/20)来最小化DOF差异(在图2 B2中仍然可以看到),使用一个三脚架来捕捉长时间曝光的室内场景
-
我们对序列中的所有图像使用相同的曝光时间,这样噪声级就不会受到焦距变化的影响。
-
虽然透视不随焦距的变化而变化,但当镜头放大或缩小时,在投影中心存在微小的变化(镜头的长度),在不同深度的物体之间产生明显的透视变化(图2 B1)。因此,我们避免捕获非常接近的对象,但允许在数据集中进行这样的透视图转换。
-
1.2 Data Preprocessing
对于一对训练图像,我们用RGB-L表示低分辨率图像,用RAW-L表示传感器数据。
-
ECC图像配准来初步解决旋转和平移的仿射变换问题。
-
如果光学变焦与目标变焦比不完全匹配,则对图像应用比例偏移。
2、Misalignment Analysis
数据捕获过程中不可避免地会出现偏差,预处理步骤很难消除偏差。
-
视角的变化会导致视角的不对齐
-
高分辨率图像中的锐边不能与低分辨率图像中的模糊边精确对齐
3、Contextual Bilateral Loss
3.1 Contextual Loss
原图像P看作特征点的集合,目标图像看作特征点
的集合。对于每个原图像特征p,在某个距离度量下,搜索匹配的最近邻特征:
,那么loss是计算所有匹配的特征对的距离和:
使用上下文损失训练生成的图像遭受了严重的人工伪影的影响。这些伪影是由上下文损失中不准确的特征匹配造成的。因此,我们分析了唯一匹配的特性的百分比(即双射)。与唯一源特征匹配的目标特征的百分比仅为43.7%,远低于100%的理想百分比。
3.2 Contextual Bilateral Loss
受启发于保持边缘的双边滤波器(双边滤波同时考虑了空间域和值域),我们将空间像素坐标和像素级RGB信息集成到图像特征中。我们的上下文双边损失(CoBi)被定义为:
其中,
表示最近邻搜索的空间感知权值。使用CoBi训练的模型的一对一特征匹配的平均数量从43.7%增加到93.9%。
最终的损失函数定义为
其中,使用使用n x n RGB图像块作为特征。
三、实验
-
1、验证采用真实传感器数据的有效性:包括与其他方法比(bicubic降采样退化)和与rgb图像训练的模型比
-
2、验证合成的真实数据是否能够取代真实的传感器数据
-
3、泛化性:结果表明,我们的预训练模型可以通过对用该传感器捕获的小数据集上的模型进行微调,泛化到另一个传感器上,也表明输入-输出数据对可以来自不同的设备,表明我们的方法在有限光学变焦功率的设备上的应用