VGGT:开创3D视觉新范式!CVPR‘25最佳论文候选~

作者 | 3D视觉工坊

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

0. 论文信息

标题:VGGT: Visual Geometry Grounded Transformer

作者:Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

机构:Visual Geometry Group, University of Oxford、Meta AI

原文链接:https://arxiv.org/abs/2503.11651

代码链接:https://vgg-t.github.io/

1. 导读

我们提出了VGGT,这是一个前馈神经网络,它可以从一个、几个或数百个视图中直接推断场景的所有关键3D属性,包括相机参数、点图、深度图和3D点轨迹。这种方法在3D计算机视觉中向前迈进了一步,在3D计算机视觉中,模型通常被约束并专门用于单一任务。它还简单高效,在不到一秒的时间内重建图像,仍然优于需要使用视觉几何优化技术进行后处理的替代方案。该网络在多个3D任务中实现了最先进的结果,包括相机参数估计、多视图深度估计、密集点云重建和3D点跟踪。我们还表明,使用预训练的VGGT作为特征主干显著增强了下游任务,如非刚性点跟踪和前馈新视图合成。

2. 效果展示

VGGT是一个个大型前馈Transformer,在大量 3D 标注数据上进行训练。它最多可以接受数百张图像,并在不到一秒的时间内同时预测所有图像的相机、点图、深度图和点轨迹,这通常优于未经进一步处理的基于优化的替代方案。

我们预测的3D点与DUSt3R的定性比较。正如第一行所示,我们的方法成功地预测了油画的几何结构,而DUSt3R预测了一个略有扭曲的平面。在第二行中,我们的方法正确地从两张没有重叠的图像中恢复了一个3D场景,而DUSt3R失败了。第三行提供了一个具有重复纹理的具有挑战性的例子,而我们的预测仍然是高质量的。我们不包括超过32帧的示例,因为DUSt3R在此限制之外会耗尽内存。

附加的点图估计可视化。相机剪裁框显示了估计的相机姿态。探索我们的交互式演示以获取更好的可视化质量。

3. 引言

我们研究了利用前馈神经网络从一组图像中估计场景3D属性的问题。传统上,3D重建主要通过视觉几何方法实现,采用束调整(BA)等迭代优化技术。机器学习通常扮演重要的辅助角色,用于解决仅凭几何方法无法完成的任务,例如特征匹配和单目深度预测。这种结合日益紧密,如今最先进的运动恢复结构(SfM)方法如VGGSfM已通过可微分BA将机器学习与视觉几何进行端到端融合。尽管如此,视觉几何仍在3D重建中占据主导地位,这增加了系统的复杂性和计算成本。

随着神经网络性能的不断提升,我们提出疑问:3D任务是否最终可以直接通过神经网络解决,而几乎完全摒弃几何后处理?近期工作如DUSt3R及其改进版MASt3R已在此方向展现出潜力,但这些网络一次只能处理两张图像,且需要依赖后处理来融合成对重建结果以重构更多图像。

本文进一步推进了这一方向,致力于消除对3D几何后处理优化的需求。为此,我们提出了视觉几何基础Transformer(VGGT),这是一种前馈神经网络,能够从单个、少量甚至数百个场景视图中进行3D重建。VGGT可在单次前向传递中(耗时数秒)预测完整的3D属性集合,包括相机参数、深度图、点云图和3D点轨迹。值得注意的是,即使不进行任何后处理,其性能也常优于基于优化的替代方案。这与仍需昂贵的迭代后优化才能获得可用结果的DUSt3R、MASt3R或VGGSfM形成了显著差异。

我们还表明,无需为3D重建设计专用网络。相反,VGGT基于一个相当标准的大型Transformer架构,除在帧级注意力与全局注意力之间交替外,未引入任何特定的3D或其他归纳偏置。该网络通过在大量带有3D标注的公开数据集上进行训练,其构建方式与自然语言处理和计算机视觉领域的大型模型(如GPT、CLIP、DINO和Stable Diffusion)一脉相承。这些模型已演变为通用的骨干网络,可通过微调解决新的特定任务。类似地,我们证明VGGT计算的特征可显著提升动态视频中的点追踪和新颖视角合成等下游任务性能。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等

近期已出现若干大型3D神经网络,例如DepthAnything、MoGe和LRM。然而,这些模型仅聚焦于单个3D任务,如单目深度估计或新颖视角合成。相比之下,VGGT通过共享主干网络联合预测所有相关3D属性。我们证明,尽管存在潜在冗余,但学习预测这些相互关联的3D属性可提升整体精度。

同时,我们展示了在推理阶段,可通过单独预测的深度和相机参数推导出点云图,相比直接使用专用点云图预测头,可获得更高的精度。

4. 主要贡献

综上所述,我们的贡献包括:(1)提出VGGT——一种大型前馈Transformer网络,给定单个、少量甚至数百张场景图像,可在数秒内预测包括相机内参外参、点云图、深度图和3D点轨迹在内的所有关键3D属性;(2)证明VGGT的预测结果可直接使用,其性能极具竞争力,通常优于使用缓慢后处理优化技术的现有最先进方法;(3)进一步表明,当与BA后处理结合时,VGGT在各项任务上均达到最先进水平,甚至优于专注于单一3D子任务的方法,并常能显著提升质量。

5. 方法

我们的模型首先通过DINO将输入图像分割成令牌,并为相机预测添加相机令牌。然后,它在帧级和全局自注意力层之间交替。一个相机头对相机外参和内参进行最终预测,一个DPT朝着任何密集输出前进。

6. 实验结果

7. 总结 & 未来工作

我们提出了可视化几何接地Transformer:(VisualGeometry Grounded Transformer, VGGT)个前馈神经网络,可以直接估计所有关键的三维场景的数百个输入视图的属性。它可以在多个三维任务中实现最先进的结果,包括相机参数估计、多视角深度估计、密集点云重建和三维点跟踪。我们简单的神经优先方法不同于传统的基于视觉几何的方法,后者依赖于优化和后处理来获得准确和特定任务的结果。我们方法的简单性和效率使其非常适合实时应用,这是与基于优化的方法相比的另一个优势。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

扫码添加小助理进群

【具身智能之心】知识星球

具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1500人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、Diffusion Policy、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目近60+具身智能相关数据集行业主流具身仿真平台、各类学习路线,涉及当前具身所有主流方向。

扫码加入星球,享受以下专有服务:

1. 第一时间掌握具身智能相关的学术进展、工业落地应用;
2. 和行业大佬一起交流工作与求职相关的问题;
3. 优良的学习交流环境,能结识更多同行业的伙伴;
4. 具身智能相关工作岗位推荐,第一时间对接企业;
5. 行业机会挖掘,投资与项目对接;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值