我们真的需要复杂的生成模型来进行单目深度估计吗?

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0323b88ea496e570f48728bd830aaa37.jpeg

0. 这篇文章干了啥?

简要总结:提出了用于评估SOTA判别和生成深度和表面法线估计基础模型的综合单目几何基准。结论是:

1.在相同的训练配置下,用大数据预训练的判别模型(如DINOv2)可以优于用小规模合成数据的稳定扩散预训练的生成模型。

2.合成数据对于细粒度深度估计至关重要。数据质量是比模型体系结构和数据规模更重要的因素。

3.归纳偏差是表面法线估计的关键。

下面一起来阅读一下这项工作~

1. 论文信息

标题:GeoBench: Benchmarking and Analyzing Monocular Geometry Estimation Models

作者:Yongtao Ge, Guangkai Xu, Zhiyue Zhao, Libo Sun, Zheng Huang, Yanlong Sun, Hao Chen, Chunhua Shen

机构:浙江大学、阿德莱德大学、清华大学

原文链接:https://arxiv.org/abs/2406.12671

代码链接:https://github.com/aim-uofa/GeoBench

官方主页:https://yongtaoge.github.io/projects/geobench/

2. 摘要

判别性和生成性预训练的最新进展已经产生了具有强大泛化能力的几何估计模型。尽管判别性单目几何估计方法依赖大规模微调数据来实现零次学习泛化,但几种基于生成性的范式展示了通过利用预训练的扩散模型和甚至在少量合成训练数据上的微调,在未见过的场景中实现令人印象深刻的泛化性能的潜力。令人沮丧的是,这些模型在不同的数据集上使用不同的训练方案进行训练,这使得难以找出决定评估性能的关键因素。此外,目前广泛使用的几何评估基准存在两个主要缺点,可能会阻碍该领域的发展,即有限的场景多样性和不利的标签质量。为了解决上述问题,(1)我们在统一的代码库中构建了公平且强大的基线,用于评估和分析在不同微调范式和训练方案下最先进的(SOTA)几何估计模型;(2)我们在具有多样场景和高质量标注的更具挑战性的基准上评估了单目几何估计器。我们的结果表明,使用大数据进行预训练的判别性模型(如DINOv2)可以在相同的训练配置下,通过少量高质量的合成训练数据,超越生成性对应模型,这表明微调数据质量是一个比数据规模和模型架构更重要的因素。我们的观察也提出了一个问题:如果仅使用少量合成深度数据微调通用视觉模型(如DINOv2)就能产生SOTA结果,那么我们是否真的需要复杂的模型(如Marigold [KOH+24]和DepthFM [GFP+24])来进行深度估计?我们相信这项工作可以推动几何估计任务以及广泛的下游应用的进步。

3. 主要贡献

通过统一的代码库、训练数据和全面的基准数据集,我们惊奇地发现:

(1) 不需要额外修饰,在DINOv2 [ODM+24]主干网络上预训练的确定性深度估计模型,配合简单的DPT头部 [RBK21],仅使用少量高质量合成数据集(77K训练样本)即可实现出色的泛化性能。在相同的训练配置下,确定性模型的表现优于生成式模型Marigold [KOH+24]。此外,这一结果与以往依赖大数据来实现泛化能力的确定性模型相反,例如Metric3Dv2 [HYZ+24]侧重于收集更多样化的训练数据集(16M训练样本),而Depth-Anything [YKH+24]则专注于通过大规模伪标签提升模型性能(63.5M训练样本)。基于这一结果,我们认为训练数据的质量比数据规模更重要。

(2) 基于生成的几何估计模型可以生成高分辨率和详细的深度图和表面法线图,这是现有确定性深度估计模型所不具备的优势。我们主要将此归因于高质量的合成微调数据和VAE [KW14]解码器的设计,该解码器可以将压缩的深度潜在变量解码为与输入图像相同分辨率的深度图。

(3) 对于表面法线估计,确定性模型DSINE [BD24]在相同的训练配置下,表现优于基于生成的微调协议,这表明除了大规模预训练外,归纳偏差 [BD24] 也是为表面法线估计任务提供丰富信息的重要因素。我们希望我们的基准测试结果能够为设计更强大的几何估计算法和开发更高质量的几何估计训练数据集铺平道路。

3. 基准深度估计基础模型

为了展示SOTA(当前最佳)方法的性能,我们考虑了一些最新且具有代表性的算法,即两个判别模型(Metric3Dv2 [HYZ+24]、Depth-Anything [YKH+24])和四个生成模型(Marigold [KOH+24]、DepthFM [GFP+24]、Geowizard [FYH+24]和Gen-Percept [XGL+24])。我们在表1中通过5个流行的基准数据集(即NYU v2 [SHKF12]、KITTI [GLU12]、ETH3D [SSG+17]、ScanNet [DCS+17]和DIODE [VKZ+19])的官方发布的模型权重来公平地评估它们的性能。值得注意的是,所有方法都没有使用这些基准数据集作为训练数据。我们可以很容易地观察到(1)Metric3Dv2 [HYZ+24]在所有评估数据集上都取得了最佳性能,而另一种基于判别的方法Depth-Anything [YKH+24]则取得了第二好的性能。它们都是在大规模数据集上进行训练的,分别有16M和63.5M的训练数据。(2)生成方法即使使用少量的微调数据也能在这些评估基准上取得令人印象深刻的结果。

fec45ea3abc849aeaf9b1033e7706ae0.png

除了定量结果外,我们还通过在一些具有挑战性的场景中进行定性可视化来进一步测试它们的泛化能力。图1展示了三种算法在线条绘制图像(左)、彩色草图图像(中)和照片级真实感图像(右)上的结果。令人惊讶的是,Metric3D在线条绘制图像和彩色草图图像上都失败了,而Marigold [KOH+24]和Depth-Anything [YKH+24]在这种非几何一致性的手绘图像上展示了一定的泛化能力。我们推测,基于判别的Metric3D在训练阶段没有见过卡通图像,这导致了这种场景下的性能不佳。相反,虽然Marigold [KOH+24]在其训练集中也没有见过卡通图像,但它利用了预训练的Stable Diffusion [RBL+22]模型中存储的先验知识。Stable Diffusion [RBL+22]模型在进行文本到图像生成训练时,已经见过数百万的文本-卡通图像对。

d2f2fa5d474ba8259eb00c9f5bb0c37d.png

图2展示了现有深度估计模型在如雨天、模糊、黑暗和雾天等挑战性场景中的鲁棒性。Metric3D和Depth-Anything在雨天场景中均失败;Marigold和Metric3D在第二个模糊场景中均无法估计天空的深度。没有任何算法能够完美地处理所有环境。

a72da92517fd3f2ca010dc1f4cce189c.png

图3展示了在Infinigen [RLM+23]数据集(前两行)和BEDLAM [BPTY23]数据集(最后一行)上的深度估计结果。Infinigen [RLM+23]是一个具有多样化自然场景的逼真渲染数据集。BEDLAM [BPTY23]是一个以人为中心的高质量渲染数据集,包含各种室内和室外场景。

e0cddaa64ef499b0d3000e837b8cd5a6.png

主流深度评估指标忽略了物体边缘的深度准确性。我们使用这两个数据集来展示细粒度的深度估计结果,因为这两个数据集都具有高质量的标注。为了测量边缘深度估计的准确性,我们使用Canny [Can86]边缘检测器从图像中提取边缘掩模,然后计算传统的深度指标。如表2所示,Depth-Anything在Infinigen数据集上取得了最高的性能;而Marigold在BEDLAM [BPTY23]数据集上取得了最佳的AbsRel。

88306af5259d884c34212d2b52c2725f.png

简而言之,在大数据上训练的判别模型,即Depth-Anything [YKH+24],在大多数情况下获得了最高的性能,而在小数据上微调的生成模型,如Marigold [KOH+24],在未见过的场景中显示出竞争性的泛化能力。

我们通过在Hypersim数据集(38,387个样本)上进行训练,以公平地评估四种微调协议。训练使用480 × 640的分辨率,学习率为3 × 10−5,批量大小为96,迭代次数为10,000次。我们选择Stable Diffusion 2.1 [RBL+22]作为基础模型。如表3所示,(1) Marigold [KOH+24]在室外基准测试中表现优于其他协议,而GenPercept [XGL+24]在室内基准测试中取得了最佳性能。总体而言,Marigold的生成能力优于GenPercept。(2) 微调所有UNet参数的性能优于使用LORA层(比较DMP上的第1行和第2行)。(3) 一步GenPercept [XGL+24]可以超过多步DMP [LTLY24]。我们推测,DMP中提出的RGB混合策略使得在推理阶段难以将图像潜在表示和深度潜在表示解耦(见补充材料中的可视化结果)。(4) DepthFM [GFP+24]使用流匹配作为微调协议以实现高效的推理(两步)。尽管其性能无法与Marigold相媲美,但我们推测这是由于Stable Diffusion 2.1中的微调流管道和预训练v-预测管道之间的差异导致的。随着基于流的生成模型的兴起,例如Stable Diffusion 3 [EKB+24],它可能会成为基于流模型的合适微调策略。

b8cf6058e92cc16048e388f32aa9c109.png

与确定性模型相比,基于生成的方法的推理效率可能会成为瓶颈。在本节中,我们在表4中给出了详细的推理效率评估。可以看出,确定性方法的参数数量少于生成模型。生成模型的主要推理消耗发生在VAE [KW14]和UNet的多个推理步骤上。表4的最后一行显示,GenPercept [XGL+24]可以与Depth-Anything(ViT-Large)和微型VAE编码器[mad23]实现相当的推理延迟。在表5中,我们发现LCM [LTH+23]可以在保持性能的同时有效减少Marigold [KOH+24]的推理步骤。此外,预训练的微型VAE [mad23]可以在几乎不损失性能的情况下替代标准VAE [RBL+22]。

c8ecb8e2dd29d8322799d1fba50232ec.png

判别式深度估计模型能否像基于生成的方法一样,使用小规模的高质量训练数据集获得具有竞争力的结果?为了回答这个问题,我们使用相同数量的训练数据和相同的训练策略对确定性和生成性几何模型进行基准测试。具体来说,我们使用三个训练数据集,即Hypersim(38,387)[RRR+21]、Virtual Kitti(16,790)[GWCV16]和Tartanair(31,008)[WZW+20],总样本数为77,897。两个模型都进行了20,000次迭代训练,在4个GPU上的总批次大小为96。对于确定性深度模型,我们遵循Depth-Anything [YKH+24]的网络架构(使用DINOv2预训练的ViT-Large主干和DPT [RBK21]头),并使用仿射不变损失[YKH+24]进行监督。对于生成性几何模型,我们选择Marigold [KOH+24]作为我们的基线。从表6中我们可以看到:(1) 在没有DINOv2预训练的情况下,判别式模型在所有评估数据集上都远远逊色于基于生成的Marigold(第1行与第3行相比)。然而,当使用DINOv2预训练权重初始化时,判别式模型大幅超越了Marigold(第2行与第3行相比);(2) 将Marigold从SD21扩展到SDXL在所有基准测试中均带来了持续的改进。从表7中我们可以看到,我们在77K数据上训练的确定性模型在三个数据集中均优于Metric3Dv2 [HYZ+24],并且在两个数据集(InspaceType和Infinigen)中与Depth-Anything [YKH+24]相当。这一现象表明,对于判别式模型来说,高质量的微调数据而非大规模训练数据是实现强大泛化性能的关键。

fdca6d2b99757230e31afc01eff9ba57.png bad363a3c7515622b536aa89737a5d8d.png

5. 基准表面法线估计基础模型

DSINE [BD24]和Metric3Dv2 [HYZ+24]是两个具有代表性的判别性表面估计模型,它们从两个不同的角度利用了几何先验。DSINE利用两种形式的归纳偏置:(1)每个像素的光线方向,以及(2)相邻表面法线之间的关系,来学习一个可泛化的表面法线估计器。Metric3Dv2 [HYZ+24]提出了通过从估计的度量深度中提炼多样化的数据知识来优化表面法线图。与确定性模型不同,GeoWizard [FYH+24]是一个生成性表面法线估计器,没有使用任何来自几何先验的归纳偏置。它完全依赖于预训练的扩散先验来估计表面法线图。表9总结了它们在六个基准测试集上的性能。我们构建的Mushroom [RWC+24](室内)、T&T [KPZK17](室外)和Infinigen [RLM+23](野外)数据集是为了在评估基准中添加更多具有准确表面法线标签的多样化场景。我们可以看到,Metric3Dv2 [HYZ+24]在大多数数据集上的性能优于DSINE [BD24]和GeoWizard [FYH+24]。注意这是一个不公平的比较,因为(1)Metric3Dv2 [HYZ+24]是在1600万张图像上训练的,而DSINE是在16万张图像上训练的,GeoWizard是在28万张图像上训练的。(2)DSINE使用了一个更小的主干网络EfficientNet-B5 [TL19],而Metric3Dv2 [HYZ+24]则采用了ViT-Large [DBK+20]主干网络,该主干网络使用DINOv2和registers [DOMB23]进行了预训练。

b4a6fc9890e56cdb11c961f8aed59513.png

从表8中我们可以看到(1)DSINE通过使用具有DINOv2预训练的ViT-Large主干(与在ImageNet上预训练的Efficient-B5主干相比)可以扩展性能。(2)对于基于生成的微调协议,DepthFM [GFP+24]在大多数基准测试中优于其他范式。我们将其归因于训练过程中的解码器监督。需要多步去噪推理步骤的范式,例如Marigold [KOH+24]和DMP [LTLY24],不适合在训练过程中进行解码器监督。(3)配备归纳偏置的确定性模型,在性能上优于仅基于扩散先验的生成性模型。将归纳偏置注入基于扩散的模型中是有前景的,因此,表面法线估计器可以有效地利用扩散先验和归纳偏置来提升性能。(4)使用120K样本训练的DSINE(表8中的ViT-Large)与使用16M样本训练的Metric3Dv2(表9)取得了相当的性能。这些结果验证了数据质量比数据规模更重要的观点。

54c385030062d9316e3f782742cdc7ae.png

6. 基准几何匹配

当前的单目几何估计模型能否提高原始表示模型(如DINOv2和Stable Diffusion)的3D感知能力?为了回答这个问题,我们遵循Probe3D [BRM+24]的方法,使用几何对应估计,因为3D感知意味着不同视图之间表示的一致性。具体来说,给定同一场景的两个视图,几何对应估计需要识别跨视图描绘3D空间中相同点的像素。我们从训练好的单目几何模型或表示模型(如DINOv2)中提取特征图,并直接计算不同视图密集特征图之间的对应关系。我们使用Paired ScanNet [DCS+17]进行场景评估,使用NAVI wild set [JME+24]进行对象评估。遵循[BRM+24],我们报告对应关系的召回率,即落在某一定义距离内的对应关系的百分比。从图4中我们可以看到:

(1)Depth-Anything,使用DINOv2 [ODM+24]进行预训练并在77K训练样本上进行微调,与原始DINOv2相当;使用DINOv2-reg [DOMB23]进行预训练的Metric3Dv2在ScanNet上优于原始DINOv2-reg,但在NAVI数据集上不如原始DINOv2-reg。而基于生成的模型,即Marigold、DepthFM、GenPercept和Geowizard,在两个数据集上都劣于原始Stable Diffusion [RBL+22]模型。

(2)所有模型在处理较大的视图变化时都遇到困难,而基于生成的模型则出现了更大的下降。总的来说,单目几何估计模型在较大的视点下并不是3D一致的,因此尚不足以编码真实世界场景的3D结构。

94b10554834393215677b2b06bc2c4b0.png

7. 总结 & 讨论

在这项工作中,我们首次使用多样化的评估数据集对确定性和生成性几何估计基础模型进行了大规模基准测试。我们发现,使用强大的预训练模型(无论是Stable Diffusion还是DINOv2),微调数据的质量比微调数据规模和模型架构更能决定实现可泛化的几何估计。我们相信,这项基准测试研究可以为几何估计研究中的无偏比较提供强有力的基准。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

4e915175e9c6d08c867637df4af7f16d.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

7d47c61910b878914a0be9a7983b30c2.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

95a0fede3d9734b476cf25f62539dc9a.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
4773f1a0b8ea0f5c8ea54865a12f5cac.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
bfe6538debe15ea448537cc202390bbe.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
9630e1eb7f98f61a1db7b9513320d5d2.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
c9863d7c4e154e722a85d3294e4309d9.png低成本+体积小
+重量轻+抗高反
YA001高精度3D相机
1de8b9f1b1fe2e3247d0c0d6973c8372.png抗高反+无惧黑色+半透明KW-D | 高精度3D结构光
开源相机
d26a1cbe7ad845419ae5b85928b1b82f.png硬件+源码‍工坊智能ROS小车
e0150ec9a7bcad5b6e61eb47c79ac1ae.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
—   —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值