Zero-depth:基于零样本的尺度感知的单目深度估计

作者 | Garfield 编辑 | 自动驾驶与AI

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【深度估计】技术交流群

本文只做学术分享,如有侵权,联系删文

1. 论文信息

57dba01bb67488b6f12dfb1f8b5b1658.png

2. 引言

e3bf3882d5b630af49d8033513e8f480.png

单目深度估计是计算机视觉中的关键任务,实际应用领域包括机器人技术和自动驾驶等。这是因为将任何相机转化为“密集”距离传感器的前景非常吸引人,既可以降低成本,又具有丰富的语义和广泛的应用。

然而,为了作为3D重建工具真正有用,这些预测需要是“尺度感知的”,也就是需要进行度量尺度的缩放。有监督的方法使用地面真实深度图进行训练,而自监督方法则通过注入额外信息(如速度测量、相机内参和外参)来实现。即便如此,由于不同训练数据中使用的相机存在差异,学习到的尺度并不能跨数据集传递,因此得到的模型仍将是相机特定的。

这种“几何域差距”与传统的“外观域差距”是不同的。虽然后者近年来得到了广泛研究,但几乎没有研究涉及前者。最近的趋势是专注于相对深度,完全放弃尺度以改善未缩放深度预测的零样本迁移。虽然这种方法在定性上可以实现非常准确的深度图,但是其结果仍需要在测试时使用地面真实信息进行度量尺度缩放,这极大地限制了其在实际场景中的应用,如自动驾驶和室内机器人。

本文重新思考这种趋势,提出了一种新颖的单目深度估计框架——,它对几何域差距具有鲁棒性,因此能够在不同数据集之间生成度量预测。我们通过对单目深度估计的标准架构进行两个关键修改来实现这一点:(i) 我们使用输入级几何嵌入来联合编码相机参数和图像特征,使网络能够推断物体的物理尺寸并学习尺度先验;(ii) 我们通过一个学习到的全局潜变量表示latent representation解耦编码和解码阶段。重要的是,这个latent representation表示是“变分”的,一旦被条件化,就可以通过概率方式对其进行采样和解码生成多个预测。通过对真实世界和合成数据集中的大量标度标记数据进行训练,我们的框架学习到了以物理3D属性为锚点的深度和尺度先验,可以直接跨数据集传递,从而实现了度量准确的深度估计的零样本预测。

3. 方法

3144521d57adc946c7c61e316cfd0360.png
3.1 Perceiver IO Overview

Perceiver IO是一种高效的Transformer架构,旨在解决传统Transformer方法中自注意力随输入大小呈二次扩展的问题。它通过学习一个低维的“潜在表示”来降低自注意力的计算复杂度,并使用交叉注意力将编码嵌入投影到该潜在表示上。在这个低维空间中执行自注意力,生成一个“条件潜在表示”,然后使用解码嵌入进行查询以生成估计。Perceiver IO已成功应用于多帧任务,如光流、立体和视频深度估计。

9a5d9946dacf4daaba345b58bfa769e5.png
3.2 Input-Level Embeddings

Input-Level Embeddings是指将输入图像和相机信息转换为嵌入向量,以便将它们编码到潜在表示中。具体而言,我们使用ResNet18作为图像编码器,将大小为的图像作为输入,并生成一系列分辨率越来越低、维度越来越高的特征图。这些特征图在的原始分辨率处进行拼接,生成的图像嵌入,以将每个帧的视觉信息编码到潜在表示中。

此外,我们还使用相机信息来增强图像嵌入,以生成能够推理物体物理形状的“几何感知特征”。具体而言,我们通过将像素的视线方向进行归一化和傅里叶编码,生成像素级的维几何嵌入,其中是频带数量。这些几何嵌入与图像嵌入进行拼接,从而生成更丰富的输入级嵌入向量,以便更好地编码输入数据的物理属性和视觉信息。

3.3 Variational Latent Representation

Variational Inference是一种强大的统计工具,提供了一种可行的途径来使用优化来近似难以计算的概率密度。给定输入嵌入,通过变分分布来近似潜在表示的后验概率,使得。在我们的设置中,是在编码阶段获得的“条件潜在表示”。

变分分布被限制在比更简单的分布族中,并通过选择最小化不相似性函数的分布来进行推理。按照标准做法,我们使用变分分布与之间的Kullback-Leibler(KL)散度作为不相似性函数:

实际上,这是通过将的维数加倍为,每个半部分分别存储变分分布的均值和标准差来实现的。在将与输入嵌入相结合后,通过从中进行采样来生成的“采样潜在表示”,然后可以对其进行解码以生成深度预测。

每个像素具有由下式给出的均值和标准差:

3.4 Encoder-Level Data Augmentation

Encoder-Level Data Augmentation是一种用于改善深度估计模型对外观和几何领域差异的数据增强技术,该技术是通过在编码阶段引入随机变换来实现的。这些变换包括分辨率扰动、光线扰动和嵌入丢失。在分辨率扰动中,训练图像被随机地缩放到不同的分辨率,这样就可以模拟测试数据与训练数据之间的分辨率差异。在光线扰动中,对每个像素的几何嵌入进行微小的随机扰动,以增加训练数据的多样性。在嵌入丢失中,对编码器嵌入进行随机的dropout操作,以促进学习更健壮的特征表示。这些技术可以提高深度估计模型的鲁棒性,并且可以更好地适应不同的外观和几何领域。值得注意的是,这些数据增强技术只修改编码器阶段的特征表示,而不会修改解码器阶段的几何嵌入和深度估计。

3.5 loss

本文的Training Losses是用于训练深度估计模型的损失函数,包括三个部分:深度监督、表面法线正则化和KL散度。这些部分的权重系数分别为、和。深度监督使用平滑L1损失函数,用于监督深度预测与真实深度图之间的关系。表面法线正则化使用余弦相似度,用于约束预测的深度图与对应的表面法线之间的一致性。KL散度用于鼓励学习高斯分布,以获得更优秀的潜在表示。这三个部分的损失函数可以通过加权和的方式组合成最终的Training Losses,如下所示:

其中,、和分别表示深度监督、表面法线正则化和KL散度的损失函数。在训练过程中,通过反向传播算法最小化Training Losses来优化深度估计模型的参数。

4. 实验

752ca9f0b928b38832ce06dedf31e7da.png

这张表格展示了在NYUv2数据集上,通过各种方法进行深度估计的结果。使用的评估指标包括AbsRel、RMSE、和,其中AbsRel和RMSE值越低越好,而值越高越好。这些方法按照它们的监督类型和评估时是否使用中位数缩放进行分类。最佳表现的方法用粗体突出显示。

9aeda4b68b2474739695f499286eb4a2.png

第一组方法(Monodepth2、SC-Depth、PNet、Bian等、Struct2Depth、MonoIndoor和MonoIndoor++)在目标数据集(M)中使用自监督,并在评估时使用中位数缩放。这组中表现最好的方法是MonoIndoor++,其AbsRel为0.132,RMSE为0.517。第二组方法(DistDepth和Acronym)在训练过程中不使用任何监督,并在评估时使用中位数缩放。在这组方法中,Acronym在AbsRel最佳为0.081,最佳为0.986,表现最好。表格的最后两行显示了在没有中位数缩放的情况下评估DistDepth和Acronym的结果。在这种情况下,Acronym在所有指标上都优于DistDepth。总的来说,该表格显示了Acronym在使用目标数据集的自监督和中位数缩放评估的已发布方法上取得了更好的表现,并通过在不同数据集之间实现度量尺度的转换,进一步提高了现有最先进方法的性能。

2d4b9fe49d1af9e3e8dcdd3b2c081a1d.png

xi'ai是我们的潜在表示的大小,包括潜在向量的数量和维度。正如预期的那样,减小会导致结果的不断退化。特别是,减小会导致大致线性的退化,尽管即使在的情况下,我们仍然可以获得与monodepth2(RMSE 4.881 v. 4.863)相当的性能。有趣的是,减小会导致度量结果的退化速度更快(在的情况下,我们观察到中位数缩放的RMSE为4.904,度量结果为6.421)。这表明我们的模型不仅仅是学习从深度监督中产生度量缩放的预测,而是学习了可以跨数据集传递的额外尺度先验。随着我们降低网络复杂度,模型无法正确学习这些先验知识,因此度量预测的退化速度更快。

5. 讨论

优点:

  1. 提出了一种新的深度估计方法,可以在不同的数据集之间进行度量尺度的转换,从而提高了模型的泛化能力。

  2. 通过引入一个变分自编码器,可以在深度估计的同时,估计每个像素的深度不确定性,这对于一些应用场景非常有用。

  3. 与现有的最先进方法相比,本方法在许多指标上表现更好。

缺点:

  1. 本方法需要在训练过程中使用多个不同的数据集,这可能会增加训练时间和计算资源的消耗。

  2. 引入的变分自编码器会增加模型的复杂度,可能会导致训练时间增加和模型的过拟合。

  3. 本方法对于低质量或异常数据的鲁棒性还需要进一步的研究和探索。

6. 结论

本文介绍了Acronym,一种新颖的单目深度估计架构,通过大规模监督训练学习图像和几何嵌入的组合来学习尺度先验,从而实现数据集之间度量尺度的可靠零样本转移。我们维护一个全局变分潜在表示,在编码阶段使用来自单个帧的信息进行条件限制,并可以以概率方式对其进行采样和解码,生成多个深度图。我们还提出了一系列编码器级别的数据增强技术,旨在解决在不同位置和使用不同相机收集的数据集之间的外观和几何领域差距。我们在室内和室外环境中评估了同一预训练的\Acronym模型,并在多个基准测试中展示了最先进的结果,超越了依赖于域内自监督和测试时中值缩放的方法。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)

1dd74e6532c8cdd85fee3e6e2c8b6ada.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

86f5100a9ba9e3ff2e47c6220da13fa0.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

b871583f42dbbfa9bb1081183897f9b1.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

994d33b43d84463175dec28079fa8ba6.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值