点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Multi-view Reconstruction via SfM-guided Monocular Depth Estimation
作者:Haoyu Guo, He Zhu, Sida Peng, Haotong Lin, Yunzhi Yan, Tao Xie, Wenguan Wang, Xiaowei Zhou, Hujun Bao
机构:Zhejiang University、Beijing Normal University
原文链接:https://arxiv.org/abs/2503.14483
代码链接:https://github.com/zju3dv/Murre
1. 导读
本文提出了一种新的多视图几何重建方法。近年来,大型视觉模型得到了快速发展,在各种任务中表现出色,并显示出卓越的泛化能力。一些工作使用用于单目深度估计的大视觉模型,其已经被应用于以间接方式促进多视图重建任务。由于单目深度估计任务的模糊性,估计的深度值通常不够精确,限制了它们在辅助多视图重建中的效用。我们建议将SfM信息(强多视图先验)结合到深度估计过程中,从而提高深度预测的质量,并使其能够直接应用于多视图几何重建。在公共真实数据集上的实验结果表明,与以前的单目深度估计方法相比,我们的方法显著提高了深度估计的质量。此外,我们在各种类型的场景(包括室内、街景和鸟瞰图)中评估了我们的方法的重建质量,超过了最先进的MVS方法。
2. 效果展示
我们提出Murre,一种基于SfM引导的单目深度估计的多视图3D重建新方法。基于稳定扩散在少量合成数据的微调后,Murre展示了出色的泛化能力。Murre能够对各种现实场景进行高质量的重建,包括对象级、室内、街道和空中场景。

深度图和可视化的比较:

3. 引言
多视图三维重建旨在从具有已知相机姿态的多幅图像中恢复出精确的场景几何信息,该技术在机器人学、自动驾驶和虚拟现实等领域有着广泛的应用。传统多视图立体算法和神经重建方法基于多视图光度一致性定义优化目标,以从图像信号中重建三维场景。尽管这些方法取得了令人瞩目的性能,但在低纹理区域进行重建时却面临困难,因为这样的区域可能存在多个满足光度约束的合理解决方案。此外,由于优化过程耗时,这些方法的重建速度通常较慢。
随着深度学习技术的发展,一些最近的方法将神经网络引入多视图立体重建框架,以融入从大规模数据中学习到的三维场景先验。这些方法通常从图像中提取信息丰富的特征,在三维空间中聚合多视图特征,并通过隐式考虑多视图特征一致性来判断一个点是否位于三维表面上。借助学习到的场景先验,这些方法解决了低纹理区域的歧义问题,并实现了具有更快重建速度的前馈推理。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。
然而,这类基于学习的多视图立体(MVS)方法仍面临三大挑战。首先,由于三维空间的空间复杂度较高,在三维空间中聚合特征往往会消耗大量GPU内存,从而限制了重建几何体的分辨率。其次,这些方法隐式依赖于多视图一致性的归纳偏置,因此在稀疏视图设置下(即输入图像间存在许多无法匹配的区域)往往容易失败。第三,这些方法通常需要真实的三维数据进行训练。由于高质量的三维数据有限,因此很难在大量数据上进行训练,导致泛化能力有限。
在本文中,我们提出了一种新颖的学习框架Murre,该框架结合结构从运动恢复(SfM)技术和单目深度估计器,从多视图图像中重建三维几何体。我们的核心创新在于将SfM先验注入基于扩散的深度估计中,为输入图像生成多视图一致的深度图,从而实现具有强泛化能力和高质量的三维重建。具体而言,给定输入图像,Murre首先通过现成的SfM方法[22, 52]恢复稀疏点云,该方法能够全局捕捉场景结构。然后,该点云作为条件扩散模型的指导,该模型以投影的稀疏深度图和RGB图像为输入,预测相应的度量深度图。最后,通过对输入图像的度量深度图执行点云融合或截断符号距离函数(TSDF)融合,获得目标场景的三维几何体。与之前的基于学习的MVS方法相比,Murre具有两大优势。首先,通过利用SfM引导的扩散模型从单幅图像预测深度图,Murre绕过了多视图匹配步骤,从而解决了高内存消耗和处理稀疏视图场景的困难问题。其次,Murre采用预训练的稳定扩散模型来适应扩散模型,巧妙利用了二维基础模型的强大先验。在少量合成三维数据上进行微调后,可以在包括物体级、室内、街道和航空场景在内的多种真实世界场景中取得良好的泛化结果。
更具体地说,Murre的一个关键设计在于探索显式中间表示(即SfM点云),以指导条件扩散模型生成具有准确尺度的多视图一致深度图。作为多视图信息的浓缩形式,SfM点云有效地突出了场景的显著结构,并且可以轻松转换为稀疏深度图,这些稀疏深度图非常适合作为图像空间估计过程的条件信号。在预测输入图像的深度图时,我们首先将重建的SfM点云投影到相应视图上。为了对扩散模型进行密集指导,我们使用k最近邻算法对稀疏深度图进行加密,并计算相应的距离图作为置信度指标。扩散模型以RGB图像、加密深度图和距离图为输入,预测目标度量深度图。实验结果表明,我们的策略显著增强了扩散模型预测的深度图的多视图一致性。
我们在多种类型的重建基准数据集上评估了Murre,包括DTU、ScanNet、Replica、Waymo和UrbanScene3D数据集。Murre的性能始终优于最新的单目深度估计方法,并与最近的多视图立体和基于隐式神经重建的方法具有竞争力。文中还包含了对SfM方法和深度条件设计的详细消融实验和分析,以证明我们设计的鲁棒性和效率。
4. 主要贡献
我们的贡献如下:
• 我们提出了一种将SfM先验注入基于扩散的深度估计的新方法,为每个视点实现了高度准确且多视图一致的深度预测。
• 基于提出的深度估计器,我们设计了一个新的多视图三维几何体重建框架,并处理了一些合成数据集以促进训练。
• 我们在包括物体、室内、街道景观和航空场景在内的多种真实世界场景数据上评估了我们的方法,证明了其卓越的性能和泛化能力。
5. 方法
给定目标场景的多个视图图像以及结构自运动(SfM)的稀疏重建结果,我们的目标是利用SfM先验估计每个视图的密集深度,这些深度可以融合以获得场景的几何重建,如图2所示。我们基于条件扩散模型构建我们的深度估计器。为了利用多视图信息,我们提出了一种显式的中间表示,以在深度估计过程中整合SfM先验。 基于我们提出的深度估计方法,我们设计了一个管道,从输入的多视图图像中重建场景几何。最后,我们详细说明了我们的训练细节。

6. 实验结果


7. 总结 & 未来工作
我们提出了一种基于单目深度估计的多视图几何重建新范式。传统的基于图像的3D重建方法要么依赖于多视图立体匹配,要么依赖于可微分的反向渲染,但由于纹理不足或输入视图非常稀疏,可能会面临高计算成本和低重建质量的问题。大型视觉模型的最新进展显示出从单张图像中恢复高质量深度图的能力,但由于固有的单视图模糊性,估计的深度值往往不精确,且在不同视图中不一致。我们建议将SfM点云作为条件纳入基于扩散的深度估计过程中,从而自然地提高估计深度图的度量准确性和多视图一致性,然后直接融合以重建场景几何。我们在各种真实世界的数据集(包括室内场景街道景观和空中视图)中评估了重建质量超越了最先进的MVS和隐式神经网络重建方法
Murre也有一些已知的局限性。首先,我们要求运行SfM,这在极端情况下是不可行的,因为只有两个具有最小重叠的视图可用,这使得估计相机位置或获得稀疏点云几乎不可能,从而阻止进一步的重建。此外,Murre旨在重建静态场景,难以处理移动元素。未来的工作可以探索集成DUSt3R-like方法以解决更极端的情况并整合跟踪方法以处理动态场景。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~