ECCV 2022 | RGB图像引导下的基于轻量ToF传感器的深度估计

ECCV 2022 | RGB图像引导下的基于轻量ToF传感器的深度估计

在这里插入图片描述

核心内容

文章提出了一种深度估计任务。其主要针对轻量级ToF传感器采集的深度分布数据,在RGB图像的引导下,获得准确的高分辨率深度图,并为此提供了一个数据集。提出的模型获得了更加准确的深度补全和深度超分辨的效果。并实现了与商用级别的RGB-D传感器相当的性能。

研究背景

在这里插入图片描述

深度传感器是计算机视觉领域的游戏规则改变者,尤其是在商品级产品广泛可用的情况下。作为主要参与者,ToF传感器有明显的竞争力,例如,紧凑且对机械对准和环境照明条件不敏感。因此已成为深度传感器市场上最受欢迎的类别之一。然而,价格和功耗虽然已经明显低于结构光(Microsoft Kinect V1)等其他技术,但在达到类似分辨率时仍比典型的RGB相机高出一到两个数量级,因为大量的光子需要被发射、收集和处理。

另一方面,轻量级ToF传感器被设计为成本低、体型小和能耗低,已大量部署在移动设备上,用于自动对焦、障碍物检测等目的。然而,由于轻量化的电子设计,这些传感器测量的深度具有更多的不确定性(即是一种深度分布而不是单一的深度值)和低的空间分辨率(例如,小于10×10),因此无法支持像3D重建或SLAM等应用,这些都需要更高保真度的深度。相比之下,RGB 相机也广泛部署在现代设备中,具有以高分辨率捕获丰富场景上下文的优势。但由于单目视觉固有的尺度模糊性,它们无法通过单次捕获来估计准确的深度。

观察到这两种传感器可以充分互补,作者们提出了一个新的设定,即从成对的稀疏深度分布(通过轻量级 ToF 传感器获得)和 RGB 图像估计准确的密集深度图。该设置在输入深度信号方面,与之前的深度超分辨率和深度补全任务都有本质的不同,如下所述。

  • 深度超分辨率任务针对的是分辨率相对较低的消费级深度传感器(例如,Apple LIDAR 为 256 × 192,华为 P30 上的 ToF 传感器为 240 × 180)。相比之下,我们的任务针对的是分辨率低几个数量级(例如 8 × 8)的轻型 ToF 传感器,但提供了每个区域的深度分布(见图 2)。
  • 深度补全任务旨在增密不完整的密集高分辨率深度图(例如,给定数百个深度信息样本),轻量级 ToF 传感器是无法获得这样的数据的。

因此,由于输入深度信息虽然分辨率极低但可获得丰富的深度分布,本文处理的任务是独特且具有挑战性的。

本文使用的深度数据采集设备是ST VL53L5CX ToF传感器,文中称为L5。其大约只有200mW的能耗(一个Apple Lidar是4W)。

在这里插入图片描述
L5是一个轻量的ToF深度传感器。在传统的 ToF 传感器中,输出的分辨率通常高于 10,000 像素,并且会测量沿光线从光学中心到观察表面的逐像素距离。相比之下,L5 提供多种深度分布,他们有着 8 × 8 区域的极低分辨率,总共覆盖 63° field-of-view(FoV)。该分布最初是通过计算每个离散时间范围内返回的光子数来测量的,然后用一个高斯分布去拟合,从而减少宽带负载和能耗,因为只需要传输均值和方差。由于L5分辨率低、不确定性高,不能直接用于室内密集的深度估计。

主要内容

  • 针对实际应用需求构建了一个基于轻量ToF和彩色图像的深度估计任务。即由彩色图像引导的高分辨率深度估计。
  • 针对提出的深度估计任务构造了一个数据集。由于没有可用于这项新任务的公共数据集,通过在具有合理视野重叠的框架结构上安装 L5 传感器和 RealSense RGB-D 传感器来构建捕获系统,虽然两个传感器真实的视野范围有所差异,但是大部分区域是可以保证共享的。
  • 针对设计的任务提出了一个深度模型DELTAR,用于整合ToF数据和RGB图像以获得更准确的高分辨率深度估计。为了充分利用L5深度信号,本文设计了DELTAR,这是针对L5传感器的底层物理特性量身定制的架构。实验表明,提出的模型优于为深度补全和超分辨率而设计的现有架构,并提高了 L5 的原始深度读数(raw depth reading),以保持与英特尔 RealSense D435i 等商品级深度传感器相当的质量。

数据集的构建

在这里插入图片描述
实际模型中,输入使用的是来自L5采集的深度数据和来自RealSense的RGB图,而RealSense的深度图是作为最终的真值。

由于数据来自的传感器不一样,为了保证信息的一致性,对齐 RGB 图像和 L5 的输出,需要校准传感器,即计算彩色相机与L5传感器的相对旋转和平移。

与激光雷达和相机之间的校准类似,这里通过解决点到平面拟合问题来校准采集设备套件。然而,用原始 L5 信号拟合平面并非易事,因为它不提供深度值的像素位置。

作者们观察到,当面朝一个平面的时候,在L5数据的每个区域中,必然有一个位置尽管具体位置未知,但是其深度是等于对应的拟合分布的均值的。这里涉及到两套未知参数的联合估计,所以文中采用了EM风格的算法,迭代去拟合。

通过解决具有多个平面的自然场景中的点到平面对齐问题,来优化 L5 传感器和彩色相机之间的外在参数。

通过这个捕获系统,作者们创建了一个名为 ZJU-L5 的数据集,其中包括来自 15 个真实世界场景的大约 1000 个 L5-image对,这些数据实现了 RGB 和 ToF 信号的像素对齐,会用于训练和评估。除了真实世界的数据,还使用来自 NYU-Depth V2 数据集的深度来模拟合成 L5 信号,并使用它们来增强训练数据。该数据集是公开的,以促进和激发社区的进一步研究。

模型的构建

在这里插入图片描述
具体来说,先构建从 L5 的分布中提取特征,然后使用跨域注意力来在不同分辨率上交换融合 RGB 特征和深度特征。最终预测通过一个细化模块得到最终的深度值。

深度分布数据的特征提取

现有工作很少关注于对分布来提取特征。一种直接的思路是直接编码和方差。然而,深度方差通常要小均值数个量级,这使得模型的训练很困难,因为内在协方差偏移。试验里也显示了这种直接的策略并不能很好工作。

因此文中提出去通过采样深度假设离散化分布。不同于Patchmatch stereo-stereo matching with slanted support windows和Stereo processing by semiglobal matching and mutual information中的均匀采样,文中在逆累积分布函数上均匀采样,因此采样的密度遵循着原本的分布。这可以认为是一种概率驱动的采样方式。

文中利用没有T-Net的PointNet来从采样得到的深度假设上提取特征,多个模型被堆叠来提取多层级分布特征。这里整个结构中都不使用下采样操作。

彩色图像特征的提取

使用EfficientNet B5来提取多层级特征。

注意力融合模块的构建

在这里插入图片描述

主要用于分布特征和图像特征模态内和模态间特征的融合,并输出融合的特征。传统基于拼接和相加的策略不太适合于本文中的数据,因为深度假设和RGB特征并不能准确的像素级对齐。

这里使用了注意力机制来处理信息的交互融合。考虑到 L5 信号的每个分布对应于图像中的特定区域,只在相应的patch图像和分布之间进行交叉注意。

  • distribution-to-image cross-attention:Q来自图像特征patch,K和V来自分布特征。
  • distribution-to-image cross-attention:Q来自分布特征,K和V来自图像特征patch。
  • image self-attention: 因为图像上许多区域没有被L5的视野覆盖,所以这些区域无法受益于分布特征,为了进一步传播深度信息,这里也引入了图像特征上的自注意力结构。

cross-attention与self-attention结构交替N次。实际设定中N=2。

处理插值引入的不对齐

在这里插入图片描述

将 L5特征区域warp到图像时会发生错位。简单地量化浮点数边界可能会带来很大的负面影响,尤其是在低分辨率特征图上进行融合时。此外,每个区域对应的图像分辨率应该相同,以便于将它们分批。为此,对插值后的特征进行融合,然后将融合后的图像特征插值回去。(原文是这么个意思,但是还是不太理解具体到底怎么做的)

细化模块

使用Adabins中的mViT作为生成最终深度图的细化模块。不同于直接回归深度,细化模块将深度预测为多个深度区间bin的线性组合。具体来说,细化模块为每个图像预测一个bin-width向量b和每个像素的线性系数l。深度bin的中心c(b)可以从b中计算。于是最终的深度可以基于得到的N个bin的中心在系数加权求和下得到。

实验细节

  • 损失使用Scale-Invariant loss (SI)的放缩版本。
  • 训练过程中,使用NYU-D V2进行预训练,使用500对来自提出的ZJU-L5数据微调。按照现有方法的设定,从NYU-D V2中选择一个24K的子集。对每张图像选择一组区域,根据 L5 的感知原理,统计每个区域的真实深度图的直方图,并用高斯分布对其进行拟合。拟合的均值和方差与彩色图像一起用作网络训练的输入。在直方图统计期间排除了超出 L5 测量范围的深度。
  • 测试过程中,使用527对数据。

在这里插入图片描述

对比试验中,与单目深度估计、深度补全和深度超分辨三类方法在提出的测试集合上进行了比较。因为这些RGBD方法对输入点的系数程度很敏感,这里重新训练了这些方法。针对不同任务中的对比方法,作者们针对性的调整了L5的数据以满足他们的输入需求。而本文的方法始终维持分布输入不变。

  • 单目深度估计:使用 L5 的深度信息来全局对齐预测深度。
  • 深度补全:假设每个区域的平均深度位于区域的质心处,构建稀疏深度图作为输入。
  • 深度超分辨率:将 L5 信号视为 8 × 8 低分辨率深度图,每个像素(区域)对应于图像的一个区域。

在这里插入图片描述
消融实验中值得注意的有两点:

  • “w/o Patch-Dist-Corr”表示不考虑patch与分布的对应关系。
  • “w/o Refine”表示直接用两个分别输出bin-width向量和线性系数的卷积层来替换模型中的进行设计的细化模块。性能变化不大,作者觉得性能主要来自于分布特征提取器和融合网络。

在这里插入图片描述最后,作者使用立体匹配领域的传统指标,如抖动和偏差,将提出的方法与 RealSense 进行定量比较。具体来说,在距离范围从 1000 毫米到 3000 毫米的平坦墙壁前使用设备记录了多个帧。

在这种情况下,通过与用鲁棒的平面拟合获得的“真值”进行比较评估。

  • 偏差计算预测深度和真值平面之间的平均 L1 误差,用以表征精度。
  • 抖动计算为深度误差的标准偏差,用以表征噪声。

图 8 显示了提出的方法和 RealSense 之间的比较,以及由表面法线着色的点云的可视化。可以看出,在近距离(小于三米),提出的方法实现了与 RealSense 相似甚至更好的性能。但是当接近 L5 的上限时,提出的方法的抖动会急剧增加。总体而言,这表明提出的方法将 L5 的原始深度数据提高到与 L5 工作范围内的商品级深度传感器(即英特尔 RealSense D435i)相当的质量(分辨率和准确度)。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值