点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors
作者:Wonbong Jang, Philippe Weinzaepfel, Vincent Leroy, Lourdes Agapito, Jerome Revaud
机构:UCL、Naver Labs Europe
原文链接:https://arxiv.org/abs/2503.17316
官方主页:https://europe.naverlabs.com/pow3r
1. 导读
我们提出了Pow3r,一种新的大型三维视觉回归模型,在它接受的输入模态方面是高度通用的。与以前的前馈模型不同,以前的前馈模型缺乏在测试时利用已知相机或场景先验的任何机制,Pow3r在单个网络中结合了辅助信息的任何组合,如内在特性、相对姿态、密集或稀疏深度以及输入图像。基于最近的DUSt3R范式(一种基于变压器的架构,利用强大的预训练),我们的轻量级和多功能的条件作用为网络提供额外的指导,以在辅助信息可用时预测更准确的估计。在训练过程中,我们在每次迭代中向模型提供随机的模态子集,这使得模型能够在测试时在不同的已知先验水平下运行。这反过来又打开了新的功能,如在原生图像分辨率中执行推理,或点云完成。我们在3D重建、深度完成、多视图深度预测、多视图立体和多视图姿态估计任务上的实验产生了最先进的结果,并证实了Pow3r在利用所有可用信息方面的有效性。
2. 效果展示
DUSt3R和PoW3R对左图图像对的原始3D重建的定性比较。DUSt3R无法利用在测试时可能可用的辅助信息,导致噪声和分辨率低的估计,而Pow3R允许在测试时以灵活的方式注入此类先验信息,从而能够产生新的功能,如作为直接副产品的高分辨率处理。

3. 主要贡献
Pow3R 是一个全面的 3D 几何视觉模型,能够使用相应的输入图像获取任何子集(包括无)的相机内在参数、姿态和深度图。
广泛的实验表明,与无法利用先验信息的DUSt3R相比,性能有了显著提升,在三个基准测试中取得了最先进的结果。
通过预测两个不同相机坐标系中的相同点图,我们可以实现更精确的相对姿态,速度提高几个数量级。
4. 方法
我们遵循最近提出的DUSt3R框架[1051.DUSt3R是基于视觉变换器(ViT)的突破性的基础模型,可以仅基于两张未对齐和未校准的输入图像预测两个3D点云x1,1,,X2,1。然而,DUSt3R无法利用关于相机或深度的潜在可用信息,这限制了它的实际应用。为了弥补这些缺点,我们从两个方面对原始的DUSt3R网络进行了改进。推荐课程:卡尔曼滤波及其在多传感器融合的应用[PX4 EKF2讲解]。
首先,我们引入特定的模块,将任何子集的额外信息(如相机内参数、相机姿态和深度图)无缝地集成到DUSt3R中。其次,我们预测额外的点图X2,2,它表示图像12在其自身坐标系中的点图。预测三个点图提供了进一步的能力,即有可能在一次前向传递中恢复两个相机的所有信息。


5. 实验结果



6. 总结
我们提出了PoW3R,这是一种新颖的方法,用于以隐式方式引导大型3D视觉模型,例如DUSt3R,使用相机和场景先验。它不仅可以在有辅助信息时产生一致的收益,而且还解锁了新的功能,例如高分辨率处理和稀疏到密集的深度完成。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~