DUSt3R: Geometric 3D Vision Made Easy

日期

2024 CVPR

论文标题

DUSt3R: Geometric 3D Vision Made Easy

摘要

Multi-view stereo reconstruction (MVS) in the wild requires to first estimate the camera parameters e.g. intrinsic and extrinsic parameters. These are usually tedious and cumbersome to obtain, yet they are mandatory to triangulate corresponding pixels in 3D space, which is the core of all best performing MVS algorithms. In this work, we take an opposite stance and introduce DUSt3R, a radically novel paradigm for Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections, i.e. operating without prior information about camera calibration nor viewpoint poses. We cast the pairwise reconstruction problem as a regression of pointmaps, relaxing the hard constraints of usual projective camera models. We show that this formulation smoothly unifies the monocular and binocular reconstruction cases. In the case where more than two images are provided, we further propose a simple yet effective global alignment strategy that expresses all pairwise pointmaps in a common reference frame. We base our network architecture on standard Transformer encoders and decoders, allowing us to leverage powerful pretrained models. Our formulation directly provides a 3D model of the scene as well as depth information, but interestingly, we can seamlessly recover from it, pixel matches, relative and absolute camera. Exhaustive experiments on all these tasks showcase that the proposed DUSt3R can unify various 3D vision tasks and set new SoTAs on monocular/multi-view depth estimation as well as relative pose estimation. In summary, DUSt3R makes many geometric 3D vision tasks easy.

引用信息(BibTeX格式)

@article{Wang2023DUSt3RG3,
title={DUSt3R: Geometric 3D Vision Made Easy},
author={Shuzhe Wang and Vincent Leroy and Yohann Cabon and Boris Chidlovskii and J{'e}r{^o}me Revaud},
journal={ArXiv},
year={2023},
volume={abs/2312.14132},
url={https://api.semanticscholar.org/CorpusID:266436038}
}

本论文解决什么问题

现代 SfM 和 MVS 流程可以归结为解决一系列最基本的问题:匹配点、寻找基本矩阵、三角测量点、稀疏重建场景、估计摄像机,最后执行密集重建。要先进行SfM 恢复摄像机姿势而构建的稀疏场景,然后 用 MVS 进行稠密重建,而 MVS 这块很受影响摄像机姿势影响,对此DUSt3R 通过未校准和未摆好姿势的摄像机进行密集无约束立体三维重建的全新方法。

已有方法的优缺点

传统MVS算法:

优点:经过多年研究,拥有成熟的理论和技术基础。
缺点:通常需要准确的相机参数,包括内外参数,而这些参数在实际应用中可能难以获得或测量。

基于特征匹配的方法

优点:利用特征点匹配来估计相机姿态和3D结构,适用于纹理丰富的场景。
缺点:对于缺少纹理或视角变化大的情况,特征匹配可能不可靠。

基于深度学习的MVS方法

优点:利用神经网络学习复杂的图像特征和深度信息,可以处理更复杂的场景。
缺点:依赖于大量的训练数据,且可能在未见过的场景中泛化能力受限。

单视图重建

优点:无需多视图信息,可以从单个图像中预测3D结构。
缺点:由于缺乏多视图约束,这类方法通常依赖于强3D先验,可能在复杂场景中不够准确。

基于隐式表示的3D重建方法

优点:能够生成高质量的3D场景表示,适用于复杂场景的新视角合成。
缺点:计算成本高,且通常需要大量的训练数据和时间。

本文采用什么方法及其优缺点

xxxxxxxxxxxx.
将成对的重建问题视为点图(pointmaps)的回归问题,放宽了传统投影相机模型的严格约束。DUSt3R基于标准的Transformer编码器和解码器构建网络架构,利用预训练模型的优势。

网络 F 的架构受到 CroCo 它由两个相同的分支(每个图像一个)组成,每个分支包括一个图像编码器、一个解码器和一个回归头。两个输入图像首先由相同的权重共享ViT编码器以连体方式编码,产生两个标记表示F和F:

在这里插入图片描述

然后,网络在解码器中对它们进行联合推理。与CroCo类似,解码器是一个通用的transformer网络,配备了交叉注意力。每个解码器块都处理来自另一个分支的令牌:

在这里插入图片描述

最后,在每个分支中,一个单独的回归头获取解码器标记集,并输出点图和关联的置信度图:

在这里插入图片描述

3D Regression loss.

视图 v∈{1, 2} 中有效像素 i∈D 的回归损失简单定义为欧氏距离:

在这里插入图片描述

为了处理预测和地面实况之间的尺度模糊性,我们用比例因子 z = norm(X, X) 和 ̄z = norm( ̄) 对预测点图和地面实况点图进行归一化处理,X,X),它们分别简单地代表了发送所有有效点到原点的平均距离:

在这里插入图片描述

Confidence-aware loss.

存在一些不明确的三维点,例如天空中或半透明物体上的点。一般来说,图像中的某些部分通常比其他部分更难预测。因此,我们共同学习为每个像素预测一个分数,该分数代表网络对该特定像素的置信度。最终的训练目标是所有有效像素的置信度加权回归损失:

在这里插入图片描述

其中 C是像素 i 的置信度得分,α 是一个控制正则化项的超参数 。为了确保严格的正置信度,我们通常定义

在这里插入图片描述

使用的数据集和性能度量

Visual Localization:

7Scenes and Cambridge Landmarks datasets

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Multi-view Pose Estimation

CO3Dv2 and RealEstate10k

Monocular Depth

DDAD,KITTI,NYUv2 , BONN , TUM

Multi-view Depth

the DTU, ETH3D, Tanks and Temples, and
ScanNet

3D Reconstruction

DTU

《邀请进入三维视觉:从图像到几何模型》是一本专门探讨计算机视觉领域中三维视觉的书籍。在这本书中,作者详细介绍了从二维图像数据转化为三维几何模型的方法和技术。 首先,书中强调了三维视觉在计算机视觉领域的重要性。我们的真实世界是三维的,然而计算机被设计成处理和显示二维图像。通过讨论三维视觉的方法和技术,我们可以更好地理解和利用世界的三维信息。 接下来,书中介绍了图像到几何模型的基本步骤。首先,我们需要对二维图像进行处理和分析,以提取出其中蕴含的三维信息。这涉及到特征点的检测、角点的提取以及线段和轮廓的识别等。然后,通过将这些二维信息转化为三维点云来重构场景的几何结构。最后,可以使用点云数据生成和优化三维模型,如三角网格或深度图。 此外,书中还介绍了一些常用的算法和技术,用于在图像中进行深度、姿态和运动的估计。这些算法包括立体匹配、结构光、视差计算、相机标定和运动跟踪等。这些方法和技术在计算机视觉和机器人领域具有广泛的应用价值,如三维重建、SLAM(同步定位与地图构建)、虚拟现实和增强现实等。 最后,书中还探讨了三维视觉研究领域的挑战和未来发展方向。随着深度学习和人工智能的快速发展,三维视觉在图像识别、物体检测和场景理解等方面的应用将会越来越广泛。同时,如何从大规模和多源的图像数据中高效地重建三维模型,以及如何进一步提高三维视觉的准确性和稳定性,都是该领域亟待解决的问题。 总之,《邀请进入三维视觉:从图像到几何模型》是一本全面介绍三维视觉的书籍,它涵盖了从图像处理到几何模型构建的基本步骤,并讨论了相关算法和技术的应用和发展前景。无论是计算机视觉领域的研究者还是工程师,该书都是一本很好的参考和学习资料。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值