VGGSfM和Mast3r:3D场景重建的新方向
在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过Gaussian Splatting技术对它们的性能进行全面比较和分析。
VGGSfM:基于视觉几何的深度结构运动恢复
VGGSfM(Visual Geometry Grounded Deep Structure From Motion)是由Facebook Research团队开发的一种全新的结构运动恢复(Structure from Motion, SfM)方法。它的核心创新点在于引入了一个完全可微分的SfM流程,将深度学习模型集成到SfM过程的每个阶段。
VGGSfM的主要特点包括:
-
端到端可微分性:整个流程是完全可微分的,这使得端到端的训练和优化成为可能。
-
高精度相机重建:VGGSfM能提供极其精确的相机参数重建,这对下游任务如神经渲染非常有利。
-
全局优化:同时优化所有相机姿态,避免了增量方法的缺陷。
-
可微分光束平差(Bundle Adjustment):同时优化相机参数和3D点以最小化重投影误差。
Mast3r:基于3D的图像匹配技术
Mast3r(Matching And Stereo Triangulation with 3D Reconstruction)是由Naver Labs开发的一种增强型立体匹配方法。它在Dust3r的基础上,集成了密集局部特征预测和快速互反匹配。Mast3r主要聚焦于利用立体视觉来改善3D点和相机参数估计。