DUSt3R: Geometric 3D Vision Made Easy

最新推荐文章于 2025-03-17 10:00:00 发布

迷迭香、鹏

最新推荐文章于 2025-03-17 10:00:00 发布

阅读量1.8k

点赞数 43

文章标签： 3d

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34426949/article/details/140120817

版权

日期

2024 CVPR

论文标题

DUSt3R: Geometric 3D Vision Made Easy

摘要

Multi-view stereo reconstruction (MVS) in the wild requires to first estimate the camera parameters e.g. intrinsic and extrinsic parameters. These are usually tedious and cumbersome to obtain, yet they are mandatory to triangulate corresponding pixels in 3D space, which is the core of all best performing MVS algorithms. In this work, we take an opposite stance and introduce DUSt3R, a radically novel paradigm for Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections, i.e. operating without prior information about camera calibration nor viewpoint poses. We cast the pairwise reconstruction problem as a regression of pointmaps, relaxing the hard constraints of usual projective camera models. We show that this formulation smoothly unifies the monocular and binocular reconstruction cases. In the case where more than two images are provided, we further propose a simple yet effective global alignment strategy that expresses all pairwise pointmaps in a common reference frame. We base our network architecture on standard Transformer encoders and decoders, allowing us to leverage powerful pretrained models. Our formulation directly provides a 3D model of the scene as well as depth information, but interestingly, we can seamlessly recover from it, pixel matches, relative and absolute camera. Exhaustive experiments on all these tasks showcase that the proposed DUSt3R can unify various 3D vision tasks and set new SoTAs on monocular/multi-view depth estimation as well as relative pose estimation. In summary, DUSt3R makes many geometric 3D vision tasks easy.

引用信息（BibTeX格式）

@article{Wang2023DUSt3RG3,
title={DUSt3R: Geometric 3D Vision Made Easy},
author={Shuzhe Wang and Vincent Leroy and Yohann Cabon and Boris Chidlovskii and J{'e}r{^o}me Revaud},
journal={ArXiv},
year={2023},
volume={abs/2312.14132},
url={https://api.semanticscholar.org/CorpusID:266436038}
}

本论文解决什么问题

现代 SfM 和 MVS 流程可以归结为解决一系列最基本的问题：匹配点、寻找基本矩阵、三角测量点、稀疏重建场景、估计摄像机，最后执行密集重建。要先进行SfM 恢复摄像机姿势而构建的稀疏场景，然后用 MVS 进行稠密重建，而 MVS 这块很受影响摄像机姿势影响，对此DUSt3R 通过未校准和未摆好姿势的摄像机进行密集无约束立体三维重建的全新方法。

已有方法的优缺点

传统MVS算法：

优点：经过多年研究，拥有成熟的理论和技术基础。
缺点：通常需要准确的相机参数，包括内外参数，而这些参数在实际应用中可能难以获得或测量。

基于特征匹配的方法

优点：利用特征点匹配来估计相机姿态和3D结构，适用于纹理丰富的场景。
缺点：对于缺少纹理或视角变化大的情况，特征匹配可能不可靠。

基于深度学习的MVS方法

优点：利用神经网络学习复杂的图像特征和深度信息，可以处理更复杂的场景。
缺点：依赖于大量的训练数据，且可能在未见过的场景中泛化能力受限。

单视图重建

优点：无需多视图信息，可以从单个图像中预测3D结构。
缺点：由于缺乏多视图约束，这类方法通常依赖于强3D先验，可能在复杂场景中不够准确。

基于隐式表示的3D重建方法

优点：能够生成高质量的3D场景表示，适用于复杂场景的新视角合成。
缺点：计算成本高，且通常需要大量的训练数据和时间。

本文采用什么方法及其优缺点

xxxxxxxxxxxx.
将成对的重建问题视为点图(pointmaps)的回归问题，放宽了传统投影相机模型的严格约束。DUSt3R基于标准的Transformer编码器和解码器构建网络架构，利用预训练模型的优势。

网络 F 的架构受到 CroCo 它由两个相同的分支（每个图像一个）组成，每个分支包括一个图像编码器、一个解码器和一个回归头。两个输入图像首先由相同的权重共享ViT编码器以连体方式编码，产生两个标记表示F和F：

在这里插入图片描述

然后，网络在解码器中对它们进行联合推理。与CroCo类似，解码器是一个通用的transformer网络，配备了交叉注意力。每个解码器块都处理来自另一个分支的令牌：

在这里插入图片描述

最后，在每个分支中，一个单独的回归头获取解码器标记集，并输出点图和关联的置信度图：

在这里插入图片描述

3D Regression loss.

视图 v∈{1, 2} 中有效像素 i∈D 的回归损失简单定义为欧氏距离：

在这里插入图片描述

为了处理预测和地面实况之间的尺度模糊性，我们用比例因子 z = norm(X, X) 和 ̄z = norm( ̄) 对预测点图和地面实况点图进行归一化处理,X,X），它们分别简单地代表了发送所有有效点到原点的平均距离：

在这里插入图片描述

Confidence-aware loss.

存在一些不明确的三维点，例如天空中或半透明物体上的点。一般来说，图像中的某些部分通常比其他部分更难预测。因此，我们共同学习为每个像素预测一个分数，该分数代表网络对该特定像素的置信度。最终的训练目标是所有有效像素的置信度加权回归损失：

在这里插入图片描述

其中 C是像素 i 的置信度得分，α 是一个控制正则化项的超参数。为了确保严格的正置信度，我们通常定义

在这里插入图片描述

使用的数据集和性能度量

Visual Localization：

7Scenes and Cambridge Landmarks datasets

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Multi-view Pose Estimation

CO3Dv2 and RealEstate10k

Monocular Depth

DDAD，KITTI，NYUv2 , BONN , TUM

Multi-view Depth

the DTU, ETH3D, Tanks and Temples, and
ScanNet

3D Reconstruction

DTU

迷迭香、鹏

博客等级

码龄9年

23
原创

220
点赞

209
收藏

116
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer
626626626: 您好，想问下您这个是不是得需要数据集包含光流图才可以使用呢
ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer
迷迭香、鹏: 去谷歌搜论文名字可以找到他的github
ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer
迷迭香、鹏: https://github.com/apple/ml-aspanformer
ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer
Luao.: 是不是还没有开源的代码
MVSTER: Epipolar Transformer for EfficientMulti-View Stereo
CSDN-Ada助手: 恭喜作者发布了这篇关于“MVSTER: Epipolar Transformer for Efficient Multi-View Stereo”的博客，内容非常深入，对于多视角立体匹配有着很大的启发作用。希望作者能够继续保持创作的热情，分享更多关于计算机视觉和立体匹配方面的研究成果。或许在下一篇博客中，可以结合实际案例，深入分析该方法在实际应用中的效果与局限性，这样更能够帮助读者更好地理解和应用这一技术。再次感谢作者的分享，期待更多精彩的内容。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。