Adobe又一力作:无位姿稀疏视图即可重建3D大模型?

论文标题:

PF-LRM: POSE-FREE LARGE RECONSTRUCTION MODEL FOR JOINT POSE AND SHAPE PREDICTION

论文作者:

Peng Wang, Hao Tan, Sai Bi, Yinghao Xu, Fujun Luan, Kalyan Sunkavalli, Wenping Wang, Zexiang Xu, Kai Zhang

导读:研究人员提出了PF-LRM,该方法使用了三平面体NeRF进行表示,并采用了可扩展单流Transformer模型,在2D和3D的token之间进行信息交换。通过在大规模数据集上训练,PF-LRM在输入稀疏视角情况下也能够稳健地准确的姿态并重建出逼真的3D物体,超越了以往的baseline工作。该模型在不需要添加额外的3D监督的情况下进行训练,并且能够推广到未训练过的数据集、处理2-4个输入的无姿态图像。©️【深蓝AI】编译

1. 工作概述

研究人员提出了一种可以处理无姿态图像三维重建大型重建模型方案(PF-LRM),用于在无姿态并且有很少视觉重叠图像的情况下重建3D物体,同时该方法可以在单个A100 GPU上以极短的时间来估计对应的摄像机姿态。PF-LRM是一种高度可伸缩的方法,它可以利用自注意力模块在3D对象标记和2D图像标记之间交换信息;为每个视图预测一个粗略的点云,且使用可微透视点(PnP)求解器来获得相机姿态。在大约100万个建模物体的大量多视图姿态数据上进行训练时,PF-LRM显示出较强的跨数据集泛化能力。在各种此前未见过的评估数据集上,在姿态预测精度和三维重建质量方面大大优于目前baseline方法。

如下图所示可以很精确地预估图片位姿,并渲染对应的图片:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
▲图1|gt位姿与模型估计位姿对比©️【深蓝AI】编译

2. 关键技术

本研究的大体思路是:给定没有位姿的稀疏输入图像,使用一个大参数的transformer来重建一个三平面NeRF,同时估计输入视图相对于参考视图的相对摄像机位姿。在训练过程中,使用GT位姿监督新视点的渲染loss。对于相机配准,该工作并不是直接回归预测相机位姿,而是将图像token以点云(右上)的形式映射到一个粗糙的三维几何图形,在那里从每个补丁中心对应的每个补丁标记预测一个三维点,然后使用可微PnP求解器从这些预测的3D-2D对应中获得相机位姿。

在这里插入图片描述▲图2|PF-LRM的pipeline图©️【深蓝AI】编译

■2.1 transformer网络结构

单流Transformer方法采用预训练的DINO Vision Transformer对输入图像进行标记化处理,并通过单流多模态Transformer对图像和三平面NeRF进行标记化处理。该方法的设计灵感源自于学者们之前与LRM相关的工作及其后续的研究,其采用单流架构,实现了图像token和NeRF token之间的信息交换,以预测一致的NeRF和用于相机估计的每个视图粗略几何,而先前的方法采用编码-解码设计。

■2.2 NeRF表达

通过神经可微分体积渲染监督学习NeRF模型的形状和外观,使用了体积渲染来生成三面体NeRF在新视角下的图像。这一渲染过程由数学公式表达,其中采用L2 loss和VGG-based LPIPS损失函数来监督神经渲染的重建效果,以优化形状与外观的学习过程。

■2.3 监督训练方式

通过可微分PNP求解器进行姿态预测的方法。该方法利用NeRF token上下文化的每个视图图像块标记来估计相机的相对姿态,通过MLP预测了每个图像块标记对应的3D点位置和置信度。通过实施一系列损失函数,特别是可微分PNP损失,从而稳定并提高了姿态预测的准确性。最终的训练目标是由多个损失项组合而成,其中包括渲染损失以及各个与粗略几何预测、不透明度预测和可微分PNP损失相关的损失项。

3. 实验效果

■3.1 数据集

PL-LRM模型只需要多视图带有位姿图像来进行训练。为了构建一个大规模的多视图姿态数据集,研究人员使用了Objaverse 和MVImgNet的数据。为了评估模型的跨数据集泛化能力,研究人员使用一些数据集,包括OmniObject3D , Google Scanned Objects(GSO), Amazon Berkeley Objects(ABO), Common Objects 3D (CO3D),和DTU。

■3.2 baseline对比

研究人员在姿态估计和三维重建两个任务上根据基线评估其性能。对于姿态估计任务,将PF-LRM与FORGE、RelPose++和基于sfm的方法HLoc。研究人员还在重建质量方面与FORGE进行了比较。(一些方法由于缺少可用的开源代码,以及在研究范围内的有着明显区别,没有进行比较)

在这里插入图片描述▲表1|各个数据集实验©️【深蓝AI】编译

■3.3 结果

本模型在OmniObjects3D、ABO、GSO、CO3D和DTU等未知数据集上取得了出色的成果。相比基线方法(FORGE、HLoc、RelPose++),本文的模型在各项度量指标下都取得了显著的优势。作者特别关注了不同方法在跨数据集泛化能力方面的表现,这反映了它们在实际应用中的性能。对于OmniObjects3D、GSO和ABO数据集,作者相对FORGE获得了平均14.6倍的旋转误差减少率,相对HLoc和RelPose++分别为15.3倍和14.7倍。

本模型在处理非信息性白色背景输入图像时表现出色,相比较其他方法能够取得更准确的姿态估计结果。在CO3D和DTU数据集上,本模型也展现出了比RelPose++和FORGE更好的泛化能力。在重建质量方面,本文的模型在OmniObjects3D、GSO和ABO数据集上表现出色,平均PSNR为24.8,远远超过基线方法FORGE的13.4。

本模型能够产生高质量的重建,并且在渲染NeRF时可以与实际输入图像相匹配。相比之下,基线方法FORGE在这一目标上表现不佳,显示出PSNR较低的趋势。

在这里插入图片描述▲图3|各数据集生成实验©️【深蓝AI】编译

除此之外,通过对可变数量的输入视图进行测试,作者的模型展现了一定程度的鲁棒性,在减少视图数量的情况下性能有所下降,但降低的幅度是可以接受的。然而,当输入的分割掩模非常嘈杂时,模型性能明显下降,这与CO3D数据集提供的不准确掩模可能对模型性能造成负面影响一致。

在这里插入图片描述▲表2|少视图输出实验©️【深蓝AI】编译

4. 总结与未来展望

在这项工作中,研究人员提出了一个基于tansformer的三维重建大模型来估计摄像机参数,并以三平面NeRF来重建三维物体。该模型采用自注意力机制,以三平面token和图像patch token相互交流关键信息,从而提高最终NeRF重建质量,并使用可微PnP求解器进行鲁棒的每个patch表面点预测。目前该模型在姿态预测精度和重建质量方面大大优于基线方法,也可以在下游应用程序中使用,比如文本/图像到3D生成。

尽管该模型的重建和姿态预测性能十分强大,但在未来的工作中仍存在一些局限性:

1)首先,在预测相机姿态时,忽略了可能包含丰富线索的背景信息,如消失点、投射阴影等。如果将工作扩展到处理空间扭曲的背景将会很有趣。

2)PF-LRM预测的三平面NeRF的分辨率也可以通过探索粗到细建模或其他高容量紧凑表示等技术,如多分辨率体素网格以实现更详细的几何和纹理重建。

3)该模型目前假设已知参数是来自相机传感器元数据,未来的工作也可以探索预测相机扫描的技术。

4)虽然该模型在测试期间是无姿势的,但它仍然需要GT真实位姿监督来训练;一个有趣的方向是在训练过程中提高摄像机位姿的要求,以使用大量的户外直接拍摄的视频训练数据。

编译|Northeast corn

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

  • 11
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值