MonST3R | UC伯克利、DeepMind等提出的运动状态下估算几何图形的先进方法

关注公众号,发现CV技术之美

本篇分享论文MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion,探索在运动状态下估算几何图形的简单方法——MonST3R。作者来自UC伯克利、DeepMind等。

c52843332d02e240cf86aea34b305098.png
  • 论文链接:https://arxiv.org/abs/2410.03825

  • 代码链接:https://github.com/Junyi42/monst3r

  • 项目链接:https://monst3r-project.github.io/

  • 演示链接:https://monst3r-project.github.io/page1.html

视频结果展示:


摘要

从动态场景中估计几何形状,尤其是物体随时间移动和变形的情景,仍然是计算机视觉中的一个核心挑战。目前的方法通常依赖多阶段管道或全局优化,将问题分解为深度和光流等子任务,使得系统复杂且容易出错。

本文提出一种新的以几何为中心的方法—— Motion DUSt3R(MonST3R),直接从动态场景中估计每个时间步的几何形状。其中关键见解是,通过简单地为每个时间步估计点图,可以有效地将 DUST3R 的表示(之前仅用于静态场景)适应于动态场景。然而,这种方法面临一个重大挑战:缺乏适合的训练数据,即带有深度标签的动态视频。

但作者表示,通过将问题视为微调任务,识别多个合适的数据集,并在有限的数据上有策略地训练模型,也能成功使模型能够处理动态场景,即使没有明确的运动表示。基于此,针对几个下游视频特定任务引入了新的优化,并在视频深度和相机姿态估计方面表现出色,超越了之前的工作,展现出更高的鲁棒性和效率。此外,MonST3R 在前馈 4D 重建方面也显示出良好的结果。


方法


本文利用 DUSt3R 的点图表示来直接估计动态场景的几何形状。DUSt3R 的点阵图表示法:估算两帧的 xyz 坐标,并以第一帧的相机坐标对齐。但对于 DUSt3R 是否可以有效地处理带有移动物体的视频数据。作者发现 DUSt3R 训练数据分布存在两个重大限制。

如下图所示:

45bb3730091eb5bdea8fa5d7a357ca0c.jpeg
DUSt3R 在动态场景中的局限性
  • 左图:DUSt3R 对齐了移动的前景主体,但由于只在静态场景中进行了训练,因此对齐了背景点。

  • 右图:DUSt3R 无法估计前景主体的深度,将其置于背景中。

但引起这些局限的主要问题是数据缺失,因此通过对一小部分动态视频进行微调,可以使 DUSt3R 适应动态场景,效果出人意料地好。

d983609ccea3215b2a588a0353c5ea01.png
用于动态场景微调的训练数据集
f4b17bdbaa66ab1f9fa2952c6589e0e4.png
关于微调的消融研究

主要贡献:

  • 提出 Motion DUSt3R (MonST3R),一种几何优先的动态场景方法,它能以点图的形式直接估计几何图形,即使是移动的场景元素也不例外。为此,确定几个合适的数据集,可喜的是,小规模的微调也能够实现动态场景直接几何估计的良好结果。

  • MonST3R 在多个下游任务(视频深度和相机位姿估计)上取得了令人满意的结果。与之前的工作相比,MonST3R 尤其具有以下主要优势:

    • 鲁棒性更强,尤其是在具有挑战性的场景中;

    • 与基于优化的方法相比,速度更快;

    • 在视频深度估计、相机位姿估计和密集重建方面,与专门技术相比,结果更具竞争力。


实验结果


video depth estimation(视频深度估计)

定量结果

从定量结果来看,视频深度估计与该特定任务方法相比性能仍有竞争力,甚至与最近发布的DepthCrafter相当。

1033d2c7401fcc09e38d0f356b7d5550.png

定性结果

从定性结果来看,MonST3R 与真实深度的对齐效果更好,如下图 Bonn 数据集中第一行的结果。

70802c7d0ba4f44792c7bc5c9dd905ec.jpeg
在Bonn数据集上的视频深度评估,预测的深度经过了尺度和偏移对齐处理。

camera pose estimation(相机位姿估计)

定量结果

从定量结果来看,相机位姿估计结果在与任务特定方法的比较中同样具有竞争力。

155f094ff0d898f31274967eb558bfc4.png

定性结果

从下图的定性结果看,MonST3R 在具有挑战性的场景中表现更具鲁棒性,例如 Sintel 中的 cave_2 和 temple_3。

f11ed1cc1a725437223a2722c701c99b.png
在Sintel数据集上的相机位姿估计结果
ed76b2ff7b51e4cee948bc44cd7b0278.png
在Scannet数据集上的相机位姿估计结果

joint dense reconstruction and pose estimation(联合密集重建和位姿估计)

定性结果

从下图定性结果来看,MonST3R同时输出可靠的相机轨迹和动态场景的几何形状。

e7153fca591d0e69ec85d8101af9944c.jpeg ff2f0b980adbd0760b5ada242fa9ce4d.jpeg
在DAVIS数据集上的联合密集重建和位姿估计结果

另外,作者在社交媒体上表示,该结果的速度比以前的方法快 10 倍

87f8aa29603dbbae76bba2db8bead18b.png

Pairwise prediction(成对预测)

最后,还展示了前馈成对点图预测的结果,如下图。

a8f1bd53b9d8569b0e8c82eb8aafa42d.jpeg

第一行表明,即使经过微调,所提出方法仍然能够处理不断变化的相机内参。简言之就是可以可以处理动态焦点。

第二行和第三行表明,所提出方法能够处理“impossible”的对齐情况,即两帧图像几乎没有重叠,即使在有运动的情况下也是如此,而不像 DUSt3R 会根据前景物体进行错误对齐。简言之,可以在动态场景中进行“不可能匹配”。

第四行和第五行表明,除了使模型能够处理运动之外,微调还提高了模型表征大尺度场景的能力,而 DUSt3R 预测大尺度场景是平面的。简言之,可以更好地估计大场景中的几何图形。


4D 在线演示

特别值得一提的是,作者还提供了一个有趣的 4D 在线演示,可以探索 MonST3R 对各种动态场景的 4D 重建结果,感兴趣的小伙伴可以前来了解!

4beee921d752592aa1d4da22d1247ca5.png
  • 可交互结果展示:https://monst3r-project.github.io/page1.html


结论

MonST3R,是一种直接估算动态场景几何图形并提取相机姿态和视频深度等下游信息的简单方法。

MonST3R 利用每个时间步长的点图作为动态场景的强大表示法。尽管在相对较小的训练数据集上进行了微调,但 MonST3R 在下游任务上仍然取得了令人印象深刻的结果,甚至超过了之前最先进的特定技术。

最新 AI 进展报道
请联系:amos@52cv.net

162adac40e4e4ecea8466956e7f1ab32.jpeg

END

加入「计算机视觉交流群👇备注:CV

c0622151d5238ac27ee9b462baf43cc9.png

变分模态分解(Variational Mode Decomposition, VMD)是一种强大的非线性、无参数信号处理技术,专门用于复杂非平稳信号的分析与分解。它由Eckart Dietz和Herbert Krim于2011年提出,主要针对传统傅立叶变换在处理非平稳信号时的不足。VMD的核心思想是将复杂信号分解为一系列模态函数(即固有模态函数,IMFs),每个IMF具有独特的频率成分和局部特性。这一过程与小波分析或经验模态分解(EMD)类似,但VMD通过变分优化框架显著提升了分解的稳定性和准确性。 在MATLAB环境中实现VMD,可以帮助我们更好地理解和应用这一技术。其核心算法主要包括以下步骤:首先进行初始化,设定模态数并为每个模态分配初始频率估计;接着采用交替最小二乘法,通过交替最小化残差平方和以及模态频率的离散时间傅立叶变换(DTFT)约束,更新每个模态函数和中心频率;最后通过迭代优化,在每次迭代中优化所有IMF的幅度和相位,直至满足停止条件(如达到预设迭代次数或残差平方和小于阈值)。 MATLAB中的VMD实现通常包括以下部分:数据预处理,如对原始信号进行归一化或去除直流偏置,以简化后续处理;定义VMD结构,设置模态数、迭代次数和约束参数等;VMD算法主体,包含初始化、交替最小二乘法和迭代优化过程;以及后处理,对分解结果进行评估和可视化,例如计算每个模态的频谱特性,绘制IMF的时频分布图。如果提供了一个包含VMD算法的压缩包文件,其中的“VMD”可能是MATLAB代码文件或完整的项目文件夹,可能包含主程序、函数库、示例数据和结果可视化脚本。通过运行这些代码,可以直观地看到VMD如何将复杂信号分解为独立模态,并理解每个模态的物理意义。 VMD在多个领域具有广泛的应用,包括信号处理(如声学、振动、生物医学信号分析)、图像处理(如图像去噪、特征提取)、金融时间序列分析(识
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值