MonST3R | UC伯克利、DeepMind等提出的运动状态下估算几何图形的先进方法

最新推荐文章于 2025-01-09 16:29:03 发布

我爱计算机视觉

最新推荐文章于 2025-01-09 16:29:03 发布

阅读量347

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247624938&idx=1&sn=497ff3ad43696fef2561252de3f22f60&chksm=971d46c6940df856cb4a98b5c9f974abaa1d311849f446d6923c57dec1a288ab591241d0989e&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

本篇分享论文MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion，探索在运动状态下估算几何图形的简单方法——MonST3R。作者来自UC伯克利、DeepMind等。

论文链接：https://arxiv.org/abs/2410.03825
代码链接：https://github.com/Junyi42/monst3r
项目链接：https://monst3r-project.github.io/
演示链接：https://monst3r-project.github.io/page1.html

视频结果展示：

摘要

从动态场景中估计几何形状，尤其是物体随时间移动和变形的情景，仍然是计算机视觉中的一个核心挑战。目前的方法通常依赖多阶段管道或全局优化，将问题分解为深度和光流等子任务，使得系统复杂且容易出错。

本文提出一种新的以几何为中心的方法—— Motion DUSt3R（MonST3R），直接从动态场景中估计每个时间步的几何形状。其中关键见解是，通过简单地为每个时间步估计点图，可以有效地将 DUST3R 的表示（之前仅用于静态场景）适应于动态场景。然而，这种方法面临一个重大挑战：缺乏适合的训练数据，即带有深度标签的动态视频。

但作者表示，通过将问题视为微调任务，识别多个合适的数据集，并在有限的数据上有策略地训练模型，也能成功使模型能够处理动态场景，即使没有明确的运动表示。基于此，针对几个下游视频特定任务引入了新的优化，并在视频深度和相机姿态估计方面表现出色，超越了之前的工作，展现出更高的鲁棒性和效率。此外，MonST3R 在前馈 4D 重建方面也显示出良好的结果。

方法

本文利用 DUSt3R 的点图表示来直接估计动态场景的几何形状。DUSt3R 的点阵图表示法：估算两帧的 xyz 坐标，并以第一帧的相机坐标对齐。但对于 DUSt3R 是否可以有效地处理带有移动物体的视频数据。作者发现 DUSt3R 训练数据分布存在两个重大限制。

如下图所示：

DUSt3R 在动态场景中的局限性

左图：DUSt3R 对齐了移动的前景主体，但由于只在静态场景中进行了训练，因此对齐了背景点。
右图：DUSt3R 无法估计前景主体的深度，将其置于背景中。

但引起这些局限的主要问题是数据缺失，因此通过对一小部分动态视频进行微调，可以使 DUSt3R 适应动态场景，效果出人意料地好。

用于动态场景微调的训练数据集

关于微调的消融研究

主要贡献：

提出 Motion DUSt3R (MonST3R)，一种几何优先的动态场景方法，它能以点图的形式直接估计几何图形，即使是移动的场景元素也不例外。为此，确定几个合适的数据集，可喜的是，小规模的微调也能够实现动态场景直接几何估计的良好结果。
MonST3R 在多个下游任务（视频深度和相机位姿估计）上取得了令人满意的结果。与之前的工作相比，MonST3R 尤其具有以下主要优势：
- 鲁棒性更强，尤其是在具有挑战性的场景中；
- 与基于优化的方法相比，速度更快；
- 在视频深度估计、相机位姿估计和密集重建方面，与专门技术相比，结果更具竞争力。