论文笔记《POPE:6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference》

POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference

原文链接:论文笔记《POPE:6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference》 | Karl的博客

CSDN链接:论文笔记《POPE:6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference》-CSDN博客

论文链接:[2305.15727] POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference (arxiv.org)

代码链接:paulpanwang/POPE: Welcome to the project repository for POPE (Promptable Pose Estimation), a state-of-the-art technique for 6-DoF pose estimation of any object in any scene using a single reference. (github.com)

项目链接:POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with One Reference (paulpanwang.github.io)

Abstract

尽管在六自由度(6DoF)物体位姿估计方面取得了重大进展,但现有方法在涉及实体代理和下游3D视觉任务的现实场景中的适用性有限。这些限制主要来自3D模型、封闭类别检测(只能检测特定的类别)和大量密集注释支持视图的必要性。为了缓解这个问题,我们提出了一个一般的对象位姿估计范式,称为可提示对象位姿估计(Promptable object pose estimation, POPE)。

我们所提出的POPE方法能够对任何场景中的任何目标对象进行零样本6DoF对象位姿估计,同时仅采用单个参考作为支持视图。为此,POPE利用了预训练2D基础大模型的强大功能,并采用了一个具有分层特征表示和3D几何原理的框架。此外,在新的视图中,它估计目标提示与目标对象之间的相对相机位姿,实现了双视图和多视图6DoF位姿估计任务。

综合实验结果表明,POPE在零样本中表现出了无与伦比的鲁棒性能,在LINEMOD[1]和OnePose[2]数据集上,平均位姿误差分别显著降低了52.38%和50.47%。

我们还对随意捕获的图像进行了更具挑战性的测试,见图1:

image-20231115162836525

这进一步证明了POPE的鲁棒性。项目页面可以在https://paulpanwang.github.io/POPE/中找到。

1 Introduction

在众多行业中,机器人系统和增强现实/虚拟现实(AR/VR)应用程序已变得无处不在,它可以促进复杂任务的执行或提供身临其境的用户体验。描述物体的状态,特别是它们的六自由度(6DoF)位姿,是实现深入场景理解和微妙交互的关键一步。更重要的是,考虑到现实世界场景的多样性,必须有一种可以对任意对象进行操作的方法。

然而,使用简单且易于获得的参考来对看不见的物体进行物体6DoF位姿估计具有挑战性。

传统的实例级[6, 7, 8, 9, 10, 11, 12]或类别级[13, 14, 15]位姿估计器在处理不同对象时表现出局限性,因为它们是专门为特定实例或类别设计的。

在测试期间,这些设计原则将它们的泛化能力对于未见过的实例或类别进行了限制,因为它们依赖于CAD模型或定义良好的类别级规范空间。

后来,人们付出了巨大的努力,通过采用运动结构(SfM [16])技术[2, 3]、减少支持视图的数量[4]或利用深度图和自监督训练的Vision Transformers[5]来解决上述挑战。图2总结了详细的可视化比较:

image-20231115171618909

在单支持视图下实现6DoF目标位姿估计的一种简单方法是通过在查询图像和参考图像之间进行2D-2D匹配来估计相对位姿[17, 18]。然而,任意对象上的密集匹配非常不稳定,特别是对于宽基线相机视图或混乱背景。除了图像匹配的困难之外,现实场景中的另一个重大问题是目标对象可能被严重遮挡,从而难以被检测到。以前的方法倾向于针对特定实例/类别采用现成的检测器[19],或者在小规模数据集上设计基于相关的对象检测器[4]。因此,它们在处理不同场景中的新物体时的鲁棒性得不到保证。

为了解决开放世界中对任意目标对象的检测和鲁棒2D-2D匹配的障碍,一个很有前途的方法是利用在大规模数据集上训练后的基础模型。最近,社区见证了这些基础模型在少样本甚至零样本泛化方面的新兴特性,从语言[20, 21]到视觉[22, 23, 24]。

这些进展揭示了未被充分研究的零样本目标位姿估计问题——对目标类别不做任何假设,只使用一幅参考图像的诱人可能性。具体来说,新出现的跨不同图像数据域的分割[24]和非参数实例级识别[22]在解决这些挑战方面显示出了潜力。

在本文中,我们引入了一个名为Promptable Object Pose Estimation的新任务,以解决在给定的对象提示(每个实例的一张图像,用作支持)和任何新捕获的具有复杂背景(目标)的视角之间估计6DoF对象位姿的挑战。我们提出的模型称为POPE,在一个统一的pipeline中包含四个主要特征:

  1. Segment Objects对于新视角下的任何图像,生成一组有效的分割建议;
  2. Retrieve Objects在两个视图中构造对象提示和分割对象建议之间的对象级匹配;
  3. Pose Objects利用成对目标图像之间的匹配关系来估计相对位姿;
  4. Online Refinement for Arbitrary View-number可以在新的目标视图上,通过高效的2D-2D全局匹配和2D-3D局部匹配,触发粗-精位姿估计过程。

我们概述了我们的贡献如下:

  • 我们建立了一个新的和具有挑战性的任务:可提示的目标位姿估计,旨在估计野外场景下目标的位姿,没有对对象类别的假设,只使用一个参考图像。
  • 为了解决这个问题,我们提出了一种6DoF位姿基础模型,即POPE,该模型无缝地集成了预训练的基础模型和3D几何原理,用于高质量的分割、分层对象检索和鲁棒图像匹配,以实现在不同和不受控制的环境中进行精确的目标位姿估计。
  • 为了进行评估,我们引入了一个包含不同数据源的大规模测试数据集。POPE优于现有的可泛化位姿估计器,并在可提示位姿估计和下游3D视觉任务中显示出显著的有效性。

2 Related Works

Large-scale Pre-trained 2D Foundation Models.(大规模预训练2D基础模型。)

在大规模数据集上训练的模型作为基础模型,并以数据参数平衡的方式表现尺度效应。

最近,我们发现基础模型[21]表现出了很强的泛化能力,并在广泛的任务[21]中作为基础模型。例如,CLIP[25]利用对比学习来构造文本和图像形态的联合嵌入空间。类似地,像DINO[23]和DINOv2[22]这样的自监督模型具有学习鲁棒视觉特征的新特性。Segment-Anything Model(SAM)[24]演示了提示分割能力,支持具有视觉提示(如点和bounding boxes)的交互式分割。

在本文中,我们利用基础模型的强大功能来实现可提示物体位姿估计的目标。我们构建了一个融合了SAM和DINO精髓的系统,通过密集分割和实例级匹配来帮助POPE处理混乱的真实场景。

Generalizable Object Pose Estimator.(可泛化的对象位姿估计器。)

早期估计对象6DoF位姿的方法建立了实例级[26, 27, 28]或类别级[13, 15, 29, 30, 31, 15, 32, 33, 34, 35, 5]框架。

它们通常需要特定实例的完美的CAD模型或特定类别的成熟规范空间。因此,这些方法只适用于特定的实例和类别。他们不能泛化到训练中未见过的新实例/类别。根据是否使用三维模型,可归纳的目标位姿估计器的最新进展可分为两大类:

  • 一类方法通过形状嵌入[36, 37, 38]、模板匹配[39, 40, 41, 42]和渲染对比方法[43, 9, 44, 45]来采用高质量的3D对象;
  • 另一类方法则是为了避免对三维对象的需求,利用了深度图[46]、对象掩模[47, 46, 48]和参考图像[4, 2, 3]。

具体来说,Gen6D[4]首先检测目标对象并根据密集参考视图初始化位姿估计。然后,Gen6D使用特征量和3D神经网络细化位姿。OnePose[2]和OnePose++[3]从所有支持视角的RGB序列构建稀疏点云,然后通过将目标视图与稀疏点云进行匹配来确定对象位姿。然而,这些工作仍然需要密集的支持视图,即 ≥ 32 \ge 32 32个视图,其中每个视图都需要用ground-truth位姿标注。

我们认为密集支持视图的需求对于真实世界的应用程序是不实际的。为此,我们提出了可提示的位姿估计范式,其中我们只使用一个支持视图作为参考。我们将6DoF目标位姿估计任务转化为目标视图和支持视图中检索到的目标之间的相对位姿估计。因此,我们不需要对物体类别进行任何假设,从而实现了可泛化的物体位姿估计。

Two-view Object Pose Estimation.(两视角目标位姿估计。)

估计两视图之间相机相对位姿的方法可以分为两类:

  • 对应法
  • 直接位姿回归法

对应法建立交叉视图像素级对应,通过求解基本矩阵[49]即可恢复位姿。这些方法基于手工制作的特征,如SIFT[50]和SURF[51],或使用学习的特征[52, 53, 54, 55, 56, 57]来建立对应关系。有些方法还结合了鲁棒估计方法[58]或形状重建和位姿估计之间的协同作用[59]。

直接位姿回归法以端到端方式学习位姿估计线索[18, 60, 61, 62]。例如,RelPose[18]构建了一个基于能量的框架来处理位姿模糊。8-Point Transformer[61]将8-Point算法的感应偏置引入到Transformer设计中。FORGE[62]利用3D特征量来减轻2D特征学习的模糊性。

在本文中,由于经典的对应法在新的实例/类别上具有较好的泛化能力,因此我们坚持采用经典的方法。与之前的工作建立图像级对应(支持图像与整个目标图像匹配)[52, 53]不同,我们提出了一个由粗到细的范式。我们首先通过将提示对象(如支持图像所示)与目标图像中的分割对象实例进行匹配来构建实例级对应,这将识别提示对象的高度可能区域。然后在支持图像和目标图像中识别的区域之间建立细粒度的密集对应关系,避免了与杂波背景区域的噪声匹配。

3 Propmtable Object Pose Estimation Task

可推广的6DoF物体位姿估计器在机器人和3D视觉任务中发挥着至关重要的作用,它可以在不需要微调的情况下准确地确定三维空间中新物体的位置和方向。

然而,目前的方法[4, 2, 3, 5, 47]存在局限性。它们只能处理使用现成检测器从背景中分离封闭类别物体的情况[2, 3, 5]。此外,由于遮挡、物体外观变化和传感器限制[47],机器人系统抓取物体所需的支持视图数量通常是不确定的。不仅如此,由于支持视图中对位姿标注[4, 2, 3]或深度图[5]的冗长要求,使其难以向不同场景进行扩展和泛化。这些限制阻碍了现有位姿估计器在不同和不受控制的场景中的部署。

为了解决这些问题,我们提出将6DoF目标位姿估计问题分解为相对目标位姿估计问题。这种方法减少了对绝对位姿注释的依赖,并允许从双视图扩展到多视图场景。此外,我们引入了一种开放世界检测器,它是类别不可知的,对遮挡和位姿变化具有鲁棒性。

3.1 Task Definition

我们介绍了一项新颖的任务:Propmtable Object Pose Estimation(POPE)。

该任务的主要目标是根据一系列(单视角)参考图像提示来估计同一场景图像中所有物体的相对位姿。具体来说,我们的POPE模型接收任意场景图像和任意参考图像序列作为输入。作为输出,POPE同时从场景中检测出所有的对象,并根据参考图像标注出它们的位姿。

Why Promptable?(为什么是可提示的?)

对象提示符的使用提供了更高的交互性和灵活性,使最终用户能够通过对象图像或甚至抽象草图等提示表示他们对特定对象的兴趣。可提示的设置消除了对对象大小和形状的预定义类别或假设的依赖,从而产生了更通用的方法,该方法可以应用于任何对象,只要它包含在对象提示集中即可。

Why Single-View Prompt?(为什么是单视图提示?)

我们认为,在大多数用户案例中,单图像参考是更受偏爱的。一方面,在野外和网络采集中,对于同一对象,从不同角度捕捉到的一致图像几乎不存在。另一方面,用多个视图估计6DoF位姿需要额外的参考视图校准,这导致了一个先有鸡还是先有蛋的问题。高性能的双视角几何结构也使机器人agent从获取CAD模型中解放出来,并有利于用更少的视图来进行3D重建。

尽管仅通过一个参考视图来估计位姿是一个具有挑战性的设置,但幸运的是,流行的基础模型可以实现检测和匹配的鲁棒特征表示。此外,单参考位姿估计可以作为多视角几何的起点。

我们的POPE方法可以无缝集成到多视图渐进重建方法中,从一组未经处理的图像开始,可以持续提高位姿估计和重建精度。

3.2 Preliminary of Two-view Pose Estimation

在没有三维CAD模型的情况下,从两个独立的图像中估计相对相机的位姿的任务被称为双视图目标的位姿估计。经典几何视觉理论认为,相机的位姿和深度图可以仅通过图像匹配点来计算,而不需要任何附加信息[63]。

给定一组齐次坐标下的图像匹配点 x i \mathrm{x}_i xi x i ′ \mathrm{x}^\prime_i xi,以及已知的摄像机内参矩阵 K \mathbf{K} K,两视点目标位姿估计的任务是找到摄像机旋转矩阵 R \mathbf{R} R、平移向量 t \mathbf{t} t和相应的3D齐次点 X i \mathbf{X}_i Xi。目标是对于所有的 i i i,满足方程 x i = K [ I ∣ 0 ] X i \mathrm{x}_i = \mathbf{K}[\mathbf{I}|\mathbf{0}]\mathbf{X}_i xi=K[I0]Xi x i ′ = K [ R ∣ t ] X i \mathrm{x}^\prime_i = \mathbf{K}[\mathbf{R}|\mathbf{t}]\mathbf{X}_i xi=K[Rt]Xi。解决该问题的经典方法包括三个步骤:

  1. 由图像匹配点计算基本矩阵 E \mathbf{E} E
  2. E \mathbf{E} E中提取相机相对位姿 R \mathbf{R} R t \mathbf{t} t
  3. 并对匹配点进行三角化得到 X i \mathbf{X}_i Xi

基本矩阵可以通过至少5个匹配点来求解[64], R \mathbf{R} R t \mathbf{t} t可以通过矩阵分解从 E \mathbf{E} E中得到。相对相机位姿估计存在尺度模糊,可以利用全局尺度模糊来计算三维点 X i \mathbf{X}_i Xi

3.3 Modular Approach to Zero-shot Promptable Object Pose Estimation

在提示图像和包含相同对象的复杂目标之间直接应用双视图图像匹配框架容易失败。这是因为一个复杂的场景可能有许多嘈杂的匹配,特别是当限制到只有两个观察。因此,在本文中,我们提出了一种模块化的方法来解决这个问题,将其分解为多个步骤。首先,我们设计了一个开放世界检测器,用于分割和识别目标图像中被查询的对象提示。接下来,我们与新的视图建立对应关系,改进不正确的对象检索,并解决相对位姿估计的任务。

Open-world Object Detector.(开放世界对象检测器。)

在本文中,我们提出了一种鲁棒且通用的检测器,该检测器的条件是基于用户提供的对象提示图像 I P I_P IP和目标视图 I T I_T IT中的图像,而不需要对对象类别做任何假设。所提出的检测器旨在通过使用分割模型[24]的自动对象掩模生成方法,在 I T I_T IT内生成所有 K K K个有效掩码 M = { m 1 , m 2 , ⋯   , m K } \mathcal{M} = \{m^1, m^2, \cdots, m^K\} M={m1,m2,,mK}来获得目标视图中匹配的对象掩模,并检索具有最佳全局图像属性的掩码对象图像。

具体来说,我们在图像格上生成密集的均匀点,为可提示分割模型(SAM)[24]提供提示以得到 M \mathcal{M} M M \mathcal{M} M表示目标分割。

下一个目标是在给定一个对象提示图像 I P I_P IP K K K个目标中对象分割的条件下,通过建立对象提示图像 I P I_P IP与掩码对象图像集 I T K = { I T 1 , I T 2 , ⋯   , I T K } \mathcal{I}_T^K = \{I_T^1, I_T^2, \cdots, I_T^K\} ITK={IT1,IT2,,ITK}之间的关系来检索目标视图 I T I_T IT中的掩码对象图像。

然而,我们不能保证图像对具有足够的纹理[65]或足够的图像内容重叠来进行开放世界对象的局部特征匹配。

受自监督预训练Vision Transformer(ViT)模型[23]最新进展的启发,我们在DINO-v2模型[22]中采用检索增强数据引擎来执行稳健的全局检索。

在这里,我们利用嵌入的[CLS]标记来捕获全局图像属性,并通过[CLS]标记的内积构造形状为 1 × K 1 \times K 1×K的余弦相似度矩阵: S ( P , T , k ) = ⟨ C L S P , C L S T ( k ) ⟩ \mathcal{S}(P, T, k) = \left\langle CLS_P, CLS_T(k) \right\rangle S(P,T,k)=CLSP,CLST(k),它揭示了提示图像 I P I_P IP和集合 I T K I_T^K ITK中的第 k k k个掩模图像之间的对象关系。通过找到矩阵中的最高分数,我们可以在两个视图中检索同一对象的匹配图像。此外,通过将相似度矩阵放大到 M × K M \times K M×K,可以很容易地实现从单个提示图像扩展到多个(例如, M M M个提示图像)。

Hierarchical Retrieval Refinement with Local Descriptors.(使用局部描述符的分层检索细化。)

然而,尽管在大规模数据集上进行了训练,DINO-v2可能会为具有相似外观的对象生成较高的相似度分数,从而导致错误的全局对象级检索(图3的最后一列)。

image-20231116124724542

反过来,这会对位姿估计阶段的准确性产生负面影响。为了解决这个问题,我们提出了一种细粒度的方法,该方法结合了本地描述符来增强检索过程并提供更可靠的对象匹配。具体来说,我们利用局部描述符来总结局部视觉模式的相似性,包括边缘、角点和纹理。这些描述符补充了仅从全局表示中获得的潜在错误检索。

为了实现这种方法,我们考虑DINO-v2生成的Top-K提案,按降序排列相似性分数。然后,当使用自然RGB图像作为提示时,我们使用基于转换器的局部特征估计框架[53]建立图像对应关系。预测置信矩阵 P c \mathcal{P}_c Pc表示所有对应关系的匹配概率。

为了确定匹配的置信度,我们引入基于阈值 σ \sigma σ的置信度标准。在所有的 n n n个匹配中,我们选择置信度高于阈值的匹配,并记录这种匹配的数量。此判据定义为: Criteria = 1 n ∑ i = 1 n 1 ( c i ≥ σ ) \text{Criteria} = \frac{1}{n}\sum_{i = 1}^n\mathbb{1}(c_i \ge \sigma) Criteria=n1i=1n1(ciσ),其中 c i c_i ci表示第 i i i个匹配的置信度得分, 1 \mathbb{1} 1是指示函数,如果参数为真则返回1,否则返回0。在Top-K提议中,标准分数最大的提议被选为最匹配的一对,提供了更可靠的对象位姿估计。

Pose Estimation.(位姿估计。)

通过在最佳匹配视图之间建立密集的对应关系,我们继续估计相机的相对位姿。

这种位姿估计涉及通过匹配描述符、计算基本矩阵以及应用RANSAC来处理异常值并确保结果可靠来确定旋转 R ∈ SO ( 3 ) \mathbf{R} \in \text{SO}(3) RSO(3)和平移向量 t ∈ R 3 \mathbf{t} \in \mathbb{R}^3 tR3[64]。

值得注意的是,我们的方法能够准确地恢复相对旋转。然而,预测的平移是按比例的,类似于其他相对位姿估计器[4, 5]。这种限制是由于当仅考虑两个视图时恢复绝对平移(或对象比例)是一个不适定问题,因为它容易受到比例平移模糊性的影响。

为了解决这个问题,我们采用PnP算法,并利用未裁剪的支撑视图中提示对象的边界框来恢复平移的比例。

4 Experiments

我们首先展示了使用双视图场景在四个不同数据集上实现零样本6DoF对象位姿估计的方法。随后,我们通过评估其分割和检索准确性来验证所提出的开放世界检测器。最后,为了使POPE适应多视图位姿估计并评估多视图位姿的准确性,我们使用额外的输入目标帧来可视化性能,并评估新视图合成任务的位姿。

4.1 Evaluation Setup

Datasets.(数据集。)

我们在四个广泛使用的6DoF物体位姿估计数据集上评估我们的方法,以测试POPE的零样本可传递性,而无需任何微调。

**The LINEMOD Dataset[1]**是使用ground-truth CAD模型进行6DoF物体位姿估计的标准基准数据集。LINEMOD数据集由杂乱场景和不同光照条件下的13个低纹理物体的图像组成。

**The YCB-Video Dataset[66]**由21个YCB对象的92段RGBD视频组成,具有适中混乱度的背景,并使用ground-truth CAD模型进行评价。

**The OnePose Dataset[2]**包含约450个真实世界的视频序列,包含150个物体,具有丰富的纹理和简单的背景。每一帧都用相机位姿和3D bounding box标注。

**The OnePose++ Dataset[3]**用40个家用低纹理对象补充了原始OnePose数据集。

由于不同的数据集会有不同的位姿分布,我们组织并管理了一个位姿在 0 ∘ ∼ 3 0 ∘ 0^\circ \sim 30^\circ 030上均匀分布的测试集。

总体而言,测试集包含LIMEMOD上的5796对、YCB-Video上的2843对、OnePose上的2751对以及OnePose++上的3166对。

Model Selection and Baselines.(模型选择和基线。)

我们将我们提出的POPE方法与其他两种方法进行了比较:

  • LoFTR[53],一种基于图像匹配的方法,直接执行对应匹配以进行位姿估计;
  • Gen6D[4],利用基于相关的网络来寻找对象框、找到位姿初始化并细化相对对象位姿。

我们排除了OnePose和OnePose++的对比,因为它们无法从单个支持视图生成点云。

在POPE中,我们利用预训练模型来处理不同的任务:

  • 具有ViT-H结构的Segment Anything model[24]来生成对象掩码;
  • 先使用在ViT-S/14的基础上进行预训练,然后再应用DINO-v2算法进行自监督学习得到模型,以此模型来生成对象建议;
  • 使用在室内场景图像上预训练后的LoFTR模型来实现基于自然图像的图像匹配。

实验中 σ \sigma σ设为0.9, K K K设为3。

值得注意的是,对于真实环境中的任何对象,可评估可提示的对象位姿估计并不依赖于有标签的样例(支持图像中的位姿和对象掩码)进行微调。

Evaluation.(评估。)

我们遵循相对物体位姿估计的标准做法,报告每对样本的中值误差,以及 1 5 ∘ 15^\circ 15 3 0 ∘ 30^\circ 30的精度[5]。准确性指标表示错误低于这些阈值的预测的百分比。在主设计中,我们的评估主要集中在双视图设置上,同时我们提供了下游应用程序的附加结果(多视图位姿估计、新颖的视图合成)。

4.2 Comparisons

Results on LINEMOD and YCB-video datasets.(LINEMOD和YCB-video数据集的结果。)

我们在表1中列出了不同阈值下的总体平均中值误差和位姿精度:

image-20231116132951667

由于篇幅限制,我们在第4.2节中包含了完整的表格,并演示了本节中五个实例的中值误差。从结果中可以明显看出,所提出的POPE在所有指标上始终优于其他方法,在每个实例上都表现出显著的优势。定性结果如图4所示,突出显示了重要的观察结果:

image-20231116133147908

Gen6D[4]严重依赖于准确的初始化来进行位姿细化,并在单参考场景中陷入困境。LoFTR[53]在处理具有对象遮挡的集群场景时无法提供准确的匹配,从而导致框预测不准确。值得注意的是,对象框的可视化结合了ground-truth转换来解决尺度模糊性。

Results on OnePose and OnePose++ datasets.(OnePose和OnePose++数据集的结果。)

除了杂乱场景中包含多个对象的数据集之外,我们还在最近引入的一次性对象位姿估计数据集上评估了所提出的框架。与之前依赖位姿或框注释的方法不同,我们在没有此类注释的情况下进行零样本双视图位姿估计。

表1中的结果表明,POPE在这两个数据集的相对物体位姿估计任务中实现了较小的中值误差:

image-20231116132951667

随着位姿差距的增加,LoFTR可以通过利用整个图像进行匹配来提高其准确性,结合背景中的更多纹理细节,同时仍然与我们的方法保持一致。

Scaling from 2-view to Multi-view Promptable Pose Estimation(POPE).(从双视图到多视图的可提示位姿估计(POPE))

为了满足现实场景中稀疏视图数据集的需求,我们将我们的方法从双视图提示位姿估计(POPE)扩展到适应多视图场景。最初,我们利用从双视图POPE获得的图像匹配结果。我们利用LOFTR[53]的半密集对应关系,使用COLMAP[16]重建半密集点云。

为了引入新的目标视点,我们随机选择一幅图像,并以可提示的方式进行对象分割。这使我们能够检索对象的身份,并排除混乱背景造成的任何负面影响。然后,将提示图像与新添加的目标图像进行图像匹配,并对其进行配准,提取新图像与半密集点云的对应关系。通过求解PnP算法估计新目标图像的位姿。最后,通过最小化重投影误差更新稀疏点云,并进行反投影得到优化、精确的目标点云和更新的目标位姿。

为了演示我们方法的可伸缩性,我们通过随机增加视图的数量来可视化性能曲线。图6显示,随着更多的视觉信息的加入,整体精度显著提高:

image-20231116134315524

Novel View Synthesis, an Application of POPE.(新颖的视图合成,POPE的一个应用。)

我们的下一个目标是验证我们预测的位姿估计的准确性,并证明其在下游应用中的实际适用性。为此,我们采用了从我们的POPE模型中获得的估计的多视图位姿,并结合了一个预训练的可推广的神经辐射场(GNT)[67]。

具体来说,我们将GNT配置为源视图数为10,并利用ground truth位姿进行源视图翘曲。随后,我们利用POPE模型中估计的位姿,根据获得的POPE位姿生成新的视点。值得注意的是,我们的渲染结果与ground-truth彩色图像非常相似,如图7所示,验证了我们估计位姿的精度:

image-20231116140229223

这些发现为支持我们的位姿估计方法的准确性和可靠性提供了令人信服的证据,为其在各种下游应用中的有效实施铺平了道路。

Promptable Object Pose Estimation in Arbitrary Scene.(任意场景下的快速物体位姿估计。)

我们在图8、图9和图10中提供了补充视觉示例,以进一步说明我们的提示6DoF对象位姿估计方法的有效性:

image-20231116140411689

image-20231116140436959

image-20231116140458903

这种方法利用了包含感兴趣对象的提示图像,我们的算法POPE展示了通过分割和检索过程识别各种类别对象的能力,最终实现相对对象位姿的准确估计。

Necessity of Open-world Object Detector.(开放世界物体检测器的必要性。)

具有挑战性的场景,例如杂乱或复杂的背景、遮挡或照明条件的变化,可能对传统的双视图对象检测和位姿估计构成重大挑战,参见表1:

image-20231116132951667

而我们提出的方法利用开放世界对象检测器,不限于特定的类组,通过检索和匹配策略改进了零样本上的泛化性。当使用全局特征表示进行检索时,可能会错误地对不相关的对象进行较大的激活(图11),从而导致后期的6DoF估计不准确:

image-20231116140924819

我们所提出的跨视点对象检索的分层表示(表2)既提高了分割和检索的准确性,也有利于后续的位姿估计:

image-20231116141102389

Quantitative Results on Each Instance.(每个实例的定量结果。)

我们对不同阈值的平均中值误差和位姿精度进行全面分析。具体来说,我们提出了用于双视图6DoF对象位姿估计的每个实例指标,重点关注具有混乱背景的数据集,即LINEMOD[1]和YCB-Video[66]。表3和表4总结了结果,表明每个实例的准确度和整体准确度都有显着提高:

image-20231116141230402

image-20231116141242698

这一观察结果凸显了我们的快速方法在减轻背景杂波的负面影响和大幅提高估计准确性方面的有效性。

此外,我们在每一个包含复杂纹理[2]和简单纹理[3]单物体场景的数据集中为双视图6DoF物体位姿估计提供了每实例度量。如表5和表6所示,在前景对象分割和检索的帮助下,我们的方法在位姿准确性方面优于其他基于双视图的方法:

image-20231116141559057

image-20231116141614422

5 Conclusion

在本文中,我们提出了可提示对象位姿估计(Promptable object pose estimation, POPE),这是一种零样本解决方案,用于仅使用一个支持图像来估计任何场景中的6DoF物体位姿。我们的解决方案强调了利用2D预训练基础模型来提升典型物体位姿估计方法以推广到更实用的范例中的潜力。它采用模块化设计,将可提示的物体位姿估计分解为几个步骤。我们展示了我们提出的解决方案的可扩展性,可以在极端集群场景下使用单个支持图像作为提示,扩展到多个视点,以及对新颖视图合成的验证。未来工作存在几个潜在的方向,包括将大型基础模型提炼为较小的模型以实现实时推理,以及合并来自单目深度估计器的单视图深度信息以提高零样本精度。我们设想,我们的解决方案将使用户能够仅使用少量图像(甚至是稀疏的两张图像)为增强或虚拟现实应用程序生成逼真的3D资产。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丶Karl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值