这是一篇实验大于方法的论文,方法本身很简单,实验非常重要,作者对多个视觉大模型的3D感知能力做了充分的评估。个人觉得这个评估做的非常有必要,因为自从DUSt3R 发表以来,以视觉transformer为底座,以3D信息为head的方法正在机器人与SLAM,三维重建等方向大放异彩!众所周知,3D领域由于GT数据的大量缺乏,是一个巧妇难为无米之炊的现状,DUSt3R之后,我们由此而思考,视觉大模型虽然训练于2D数据,然而似乎也具有着3D感知?而西湖大学和马普所的这项研究刚好就是在做我们想知道的事情,视觉大模型VFMs,对于3D信息感知究竟几何?
除此之外,作者根据这些大模型的效果评估,合并了效果好的多个大模型,来进一步加强3D感知能力,进而优化稀疏重建pipeline,也给出了后续2D大模型应用于三维重建的一些启发。
1.abstract
视觉基础模型 (VFM) 是在广泛的数据集上进行训练的,但通常仅限于 2D 图像,自然会出现一个问题:它们对 3D 世界的理解程度如何? 由于架构和训练协议(即目标、代理任务)存在差异,迫切需要一个统一的框架来公平、全面地探究他们的 3D 感知。 现有的 3D 探索工作主要关注单视图 2.5D 估计(例如深度和法线)或双视图稀疏 2D 对应(例如匹配和跟踪)。 但是这些任务忽略了纹理感知,并且需要 3D 数据作为GT,从而限制了其评估集的规模和多样性。 为了解决这些问题,我们引入了 Feat2GS,它可以从unposed images中提取的 VFM 特征中读出 3D 高斯属性。 这使我们能够通过NVS探测几何和纹理的 3D 感知,而无需 3D 数据。 此外,3DGS 参数(几何(x、α、Σ)和纹理 (c))的解耦也可以对纹理和几何感知进行单独分析。 在 Feat2GS 下,我们进行了广泛的实验来探索几种 VFM 的 3D 感知,并研究导致 3D 感知 VFM 的成分。 基于这些发现,我们开发了几种变体,在不同的数据集上实现了最先进的技术,并且可以作为新颖视图合成的简单而有效的基线。
2.Introduction
视觉基础模型 (VFM) [6] 已成为各种 2D 推理任务的基础 [44, 69] 以及 3D 微调的关键组件 [3, 10, 13, 34, 39, 70, 94, 106] ]。 它们强大的少样本或零样本泛化能力主要源于表达特征[9,72,75]。 但3D表现力的关键是什么?3D 感知是否必须来自 3D 数据? 一些 VFM(例如 DINOv2 和 MAE)仅使用 2D 图像进行训练。 训练方法有多重要? VFM 在许多方面都有所不同,例如学习策略(例如,自监督 [9, 33]、监督学习 [44,49, 94])和代理任务(例如,深度图回归 [94]、跨视图完成 [97]) ,一代[75])。 这些差异使得公平和全面的基准测试变得困难。
为了回答这些问题,最近的工作 [21, 74] 使用两个代理任务评估 VFM 的几何感知:1) 从单个图像进行 2.5D 深度/法线/标记估计 [21, 74],以及 2) 2D 匹配/跟踪 两个视图 [2, 21]。 虽然它确实分析了当前 VFM 的 3D 感知,但它没有探究 VFM 特征的纹理感知和多视图密集一致性,而这对于 3D 相关任务(例如重建和生成)至关重要。
对于“纹理感知”,纹理不变训练可以提高几何估计,但可能损害纹理保留(参见图2中的RADIO)。 然而,恢复来自 VFM 特征图的原始纹理是大规模 2D 训练with photometric loss的关键[23,34,81,105]。 “多视角稠密探索”,比如新颖视图合成 (NVS) [8, 82],允许每个输入像素以有助于评估,而不是不仅仅是稀疏匹配点。 与 2D 稀疏匹配不同, NVS只需要图像,无需昂贵的视觉对应关系标签。 随着众多的公共多视图数据集可用[4, 46, 52, 60, 111] ,这些数据集涵盖 不同的场景和视点,使用这些数据集来密集地评估纹理和几何感知的新 3D 探测方法可能非常有价值。
因此,我们引入了 Feat2GS(Feature2Gaussian),它在 NVS 任务中仅使用 2D 多视图数据来评估 VFM 的纹理和几何感知。 如图 1 所示,在训练过程中,Feat2GS 使用预先训练的 VFM 从输入视图中提取图像特征。 然后,浅层 MLP 读出层根据这些特征回归 3D 高斯函数 [40] 的参数。 多视图光度损失最大限度地减少了渲染和输入之间的视觉差异。 在测试过程中,通过不同的数据集测量未见过的视图的视觉相似性指标(即 PSNR、SSIM、LPIPS)。 表 5 证明这些 2D 指标与 3D 指标非常一致。 为了处理稀疏和未进行相机标定的图像,我们使用 DUSt3R [94] 初始化相机参数,并通过光度损失对其进行细化。
3DGS 的参数分为几何形状 (x、α、Σ) 和纹理 (c),可对 VFM 的纹理和几何感知进行单独分析。 每个小组可以在“特征读取”和“自由优化”模式之间切换,以使用 VFM 特征作为输入或自由优化。 这导致了三种探测方案(简称 GTA),如表 1 所示。可以看出在该数据集上,mast3r几乎是几何与纹理兼备的一个大模型。
我们的主要贡献如下:
1)Feat2GS 作为 VFM 探针。 Feat2GS 提供了一个统一的框架(图 1)来探测预训练 VFM 的 3D 感知(纹理和几何),而无需使用 3D 标签。
2)VFM的广泛分析。 我们评估了跨不同多视图数