【计算机图形学】Where2Explore: Few-shot Affordance Learning for Unseen Novel Categories of Articulated Objec

passer__jw767

已于 2024-02-29 17:43:30 修改

阅读量908

点赞数 10

分类专栏：计算机图形学文章标签： 3d

于 2024-02-29 16:11:00 首次发布

本文链接：https://blog.csdn.net/passer__jw767/article/details/136374124

版权

计算机图形学专栏收录该内容

43 篇文章 12 订阅

订阅专栏

Where2Explore: Few-shot Affordance Learning for Unseen Novel Categories of Articulated Objects

1. 为什么做这件事，做了件什么事？

在不同物体类别之间，存在着巨大的几何和语义变化，之前的操纵模型难以泛化到新的类别上；同时许多Few-shot的学习方法是通过让机器人对未见过的物体执行耗时和不高效的少量交互来实现对新物体的操纵。

意识到上述限制，本文观察到了一个之前few-shot工作中都未注重的细节：尽管不同shapes之间存在差异，但不同的类别通常共享一些对于操纵而言十分重要的、相似的局部几何细节，如可拉动的把手和可抓取的边。

为了利用本文发现的这个共性，提出了’Where2Explore’，这是一个affordance学习框架，能够通过对有限数量的实例进行最少的交互，实现对新类别的高效探索。这个框架显式地估计了不同类别之间的几何相似性，同时将探索到的affordance知识迁移到物体类似的part上。

2. 介绍

铰接物体的操纵对于机器人来说是很重要的，然而由于不同类别间物体的结构、3D几何和铰接类型存在较大的差异，现有的方法仍然难以将感知和操纵泛化到这些变化较大的物体上。

最简单的解法就是在大规模的数据集上训练模型以获得泛化性的操纵知识。然而，搜集关于真实世界的3D模型的交互是非常耗时且成本高昂的。再者说，这种方法仍然会在出现新的类别和新的设计时候失败。

在真实世界应用中碰到新的物体是不可避免的，few-shot学习作为一种与新物体交互并理解它们的方式，为这种新物体的出现提出了一种充满希望的解决方式。然而，铰接物体的few-shot学习通常在实例级别上进行探索和适应，在所有的新物体上都需要进行测试交互，这就限制了机器人在实际应用中的效率和安全性。

本篇论文致力于跨类别的few-shot学习。模型需要去理解如何在有限数量的物体上进行操作从而学习到对新物体类型的操作。通过这样的few-shot学习探索，模型能够去操纵其他相同类别的那些未见过的物体，而不需要在测试时进行交互。

不同于实例级别的few-shot（发现特定物体的运动学结构和动态信息），跨类别few-shot通常学习具有更高要求的探索策略，这个探索策略应当能实现在不同物体类别上进行信息量最大化地探索。考虑到已知物体和新类别之间巨大的语义和几何差异，构建分布外物体的高效探索策略是十分困难的。然而，作者发现尽管不同类别的物体在shape上整体差异很大，但不同类别仍然共享了相似的、对于操作而言至关重要的局部细节。这种特性在之前的few-shot学习中极少被利用。

在这里插入图片描述

为了高效地在few-shot学习中找到跨类别的、至关重要的局部细节，文章提出‘Where2Explore’框架来显式地要求模型估计出新物体中与模型已知信息的相似的几何结构。面对新的物体类别，文章提出的框架可以识别出新物体上不确定的重要区域并与其进行交互。通过与新物体进行交互而微调，实现模型在新类别上的泛化。

系统是通过几步来构建的。第一步，需要表示，该表示概括了已知类别多样化的语义和几何信息，来构建一个支持集，进而将我们已经学到的知识扩展到新类别上。理想的方式是通过point-level的affordance将语义和几何信息详细地放入到逐点操作先验中；第二步，我们实现了一个相似性网络，用于测量其他类别shape和支持集中的几何相似性。这是通过区分训练集，并将相似性模块在广泛的类别下进行训练，同时使用跨类别方式监督相似性来学习的；最后，通过提出的交互，以few-shot的方式在新的类别上学习那些低相似性的区域，也就是学习那些未见过的但重要的几何信息。

本文通过在有限物体类别上训练，并以few-shot的方式学习其他类别有限的shape来泛化到新的类别，来实现对框架的评估。在完成了对新类别的探索后，在新类别未见过的物体上进一步评估了框架。结果证明了论文提出框架的有效性。另外还通过划分不同的训练集和测试集来验证系统的鲁棒性，结果证明该框架能够保持一致的结果。

论文的贡献如下：

探索了一个挑战性的任务，实现对跨类别铰接物体few-shot学习后进行操纵。这需要模型从一个新的类别有限数量的shape中，以少量的交互来捕捉精细的几何信息；
引入了‘Where2Explore’的affordance学习框架，显式衡量了不同类别局部几何之间的语义相似性，成功引导了仅需要少量交互进而实现对新类别的探索；
论文的方法在模拟环境和真实世界中都能够高效地探索新的类别并泛化至未见过的实例。

3. 相关工作

通过感知铰接物体实现操纵

未来的家庭辅助型机器人需要学会在人类环境中感知和操纵大量的铰接物体。之前的学习在估计和追踪铰接部件分割、5-DoF的部件姿态、关节参数和数字孪生方面取得了一定的成果。基于这些感知信号，后续的运动规划和控制工作可以实现对铰接物体的操控。本篇工作聚焦于学习在输入3D物体上的dense manipulation affordance heatmaps，用细粒度的几何-动作的映射来分割基础部件和关节参数。

在铰接物体上的Affordance学习

affordance的概念在操纵铰接物体任务中至关重要。研究者们探索了在铰接物体上学习manipulation affordance的方法。尽管这些工作可以精准地预测铰接物体的manipulation affordance，但他们存在的问题是难以从利用从训练数据中学习到的经验来操控新的、未见过的物体，这也是本文主要解决的核心问题。AdaAfford的工作与本文类似，AdaAfford是通过少量交互实现对新的物体的affordance预测，而AdaAfford的关注点在于泛化到已知类别中的未见过物体，而本文工作关注了一个更具有挑战性的问题，即泛化到新的铰接类别。

4. 问题定义

在之前affordance的研究中，给定一个含有N个点的3D铰接物体的部分点云观察 $O∈\mathbb{R}^3$ 和一组动作方向和gripper方向 $\{R^p_1,R^p_2,R^p_3,...|R^p_i∈SO(3)\}$ 。Visual manipulation affordance被定义为一个密集的预测 $Aff∈\R^{N×3}$ （不知道是不是笔误，我总觉得这里应该是 $R^N$ ），其中在每个点上的 $a∈[0,1]^N$ 表示在该点上执行指定动作是否能够实现部件运动。这个定义构建了细粒度的几何-运动的映射。

在few-shot探索中，模型需要提出一系列的交互 $I=\{I_1,I_2,...\}$ 。其中每个交互 $I_i=(O_i,p_i,R_i)$ 表示在Where2Act中定义的以任务为导向的硬编码的策略，其中交互点 $p_i∈O_i$ ，动作方向和gripper朝向 $R_i∈SO(3)$ 。交互产生的部件运动为 $m_i$ 。模型将会通过一系列的交互 $I$ 进行微调并产生对应的输出 ${m_1,m_2,...\}$ 。

5. 方法

在这里插入图片描述

如图2所示，本文提出了’Where2Explore’框架来显式利用不同类别局部几何上的相似语义，以few-shot的方式进行跨类别的探索。为了达到这一个目标，作者将训练集划分为两个部分：affordance类别 $C_{aff}$ 和相似性类别 $C_{sim}$ 。在本章第一小节中，介绍如何通过在 $C_{aff}$ 上学习逐点操纵affordance来创建一个基于已知shape的、包括语义和几何信息的支持集（图2左侧）；在本章第二小节中，引入相似性模块来构建支持集中跨类别几何之间的几何连接（图2中间）；在第三小节中，通过构建的相似性表达进一步扩展支持集，以相似性模块为引导，在新类别上执行few-shot学习，通过共享的局部几何来实现新类别的预测（图2右侧）；最后一节描述网络及训练策略。

5.1 建立支持集的Affordance学习

为实现跨类别few-shot探索任务，首先需要建立一个支持集，从而可以通过支持集将已有知识拓展到更广泛的物体类别上。这需要一种能概括和学习已知类别语义和几何信息的表示。

Visual manipulation affordance在之前的工作中表现出了其良好的细粒度操作信息，并且能够泛化到同类别下未见过的物体。文章利用这种表达来构建支持集。类似于Where2Act，文章建立一个模块预测逐点的affordance。给定在部分点云 $O_i$ 中某点 $p_i$ 上的一个特定动作 $R_i$ ，affordance模块需要预测给定的运动是否能够导致部件的运动。文章作者在训练类别上训练affordance模块来建立对训练类别中几何的语义理解。

然而之前的工作在新的测试类别上的表现出现了戏剧性的下降。为了使得文章提出的框架能够拓展到其他的物体类别，需要提出一个跨类别的表示来连接不同类别中相似的几何。

5.2 跨类别的相似性学习

文章提出利用支持集中学到的集合，来显式估计不同类别的几何相似性。相似性应该被视为支持集和不同类别几何之间连接的桥梁。提出的“相似性”应具有以下属性：首先相似性是基于特定动作（动作类型、动作方向、gripper方向）的，因为当动作不同的时，即使是几何相似的区域也可能会有不同的语义。例如，把手在拉操作中很重要而在推操作中没那么重要，又如水平的把手没有办法被一个同样是水平方向的gripper抓取。因此，相似性应基于现有的affordance知识，当学习到的affordance可以直接泛化到给定的几何上时，说明几何之间具有高度相似性，这意味着相似集合中的几何语义与支持集中对应部分的几何语义相似，反之亦然。

在这里插入图片描述

为了实现第一点，如图3中间所示，提出了一个相似性模块用于预测语义相似性。相似性模块的输入是物体的部分点云 $O_i∈\R^{3×N}$ ，在每个点上的一组动作方向和gripper方向 ${R_i\}$ 。通过这些信息预测逐点相似性 $Sim∈\R^N$ 。这样的设计使得相似性是动作-aware的，同时受到操作语义的潜在影响，从而相似性不仅仅依赖于物体几何。（也就是说这样提取出的语义包含了操作相关的信息）

为获得第二个属性，关键是将相似性模块暴露给训练affordance的数据集 $C_{aff}$ 以外的物体类别。如图3左侧所示，数据集被分为了两部分：仅包括一个物体类别的affordance类别 $C_{aff}$ ，以及包括了三个类别的相似性类别 $C_{sim}$ （相似性类别中也包含了affordance的类别）。在 $C_{aff}$ 上训练affordance，并使用 $C_{sim}$ 进行相似性监督。

在训练过程中，在affordance类别（如橱柜）的交互被用于监督affordance模块，如上一小节所述。在相似性类别上的交互应避免对affordance模块的更新。将相似性类别物体的affordance预测结果，与真实的的交互结果进行比较；训练期间使用affordance预测的结果监督相似性模块的学习，即：

$Sim(O_i,p_i,R_i):=Accu(Aff(O_i,p_i,R_i),m_i),O_i∈C_{sim}$

其中 $S im$ 和 $A ff$ 代表给定动作下的相似性模块和affordance模块预测结果。而 $A cc u$ 表示训练过程中，使用affordance模块预测的某个动作的affordance score的精度。

个人理解： $Accu(Aff(O_i,p_i,R_i),m_i)$ 就是首先在一个陌生的类别上，使用Affordance先验进行预测，得到一个预测的交互结果的概率 $\hat{m_i}$ ，然后又通过实际的交互结果 $m_i$ 来分析这个交互结果 $\hat{m_i}$ 的正确与否。正确的预测在所有预测中的占比，作为确定 $C_{sim}$ 中的几何和Supporting Set中几何的相似性。越相似，则Affordance对于熟悉的位置应该能够更好地做预测，从而正确预测在总预测的占比中应该越高。

5.3 Few-shot学习循环

在支持集和不同类别的几何中学到了相似性后，在新类别（在 $C_{aff}$ 和 $C_{sim}$ 中都未出现）上使用few-shot的探索来进一步学习相似性模块。

如图2右侧所示，面对一个新类别时，框架首先预测物体的相似性。由于相似性是基于动作方向和gripper方向的，我们可以采样多个方向和姿态下的 $R_i$ 进行交互，进而指示哪一部分的几何 $p_i∈O_i$ 包含了更丰富信息量的语义（我的理解是通过多个交互来找到不相似的位置）。

接着，选择具有最低相似性预测的位置，模型执行短期操纵策略并观察交互结果的部件运动 $m_i$ （如图3右侧所示）。最后，affordance模块和相似性模块都会根据这个交互 $O_i,p_i,R_i,m_i)$ 进行更新，并准备好进行下一次的预测以指示探索哪一部分。

当实例的相似性达到某个标准，或者到达交互预算时，循环终止。

尽管在未见过的类别的实例上进行少量交互，文章中提出的模型可以探索新类别重要的语义和几何信息区域，并捕捉其与学习到的类别的共同特征。通过few-shot的探索，训练类别的操纵affordance可以转移到新的类别上。由于affordance在同一类别内具有良好的泛化能力，本篇文章中的adapted affordance可以在不需要额外交互的情况下操纵学习到的新类别中的未见过物体。

5.4 网络结构和训练策略

使用PointNet++分割网络来编码3D部分点云的特征，输出逐点128维的特征。affordance模块和相似性模块共享相同的解码器，因为作者希望相似性模块是基于affordance预测的。

Affordance Loss。是一个二分类交叉熵损失，衡量给定交互下affordance的预测结果和二进制标签，该二进制标签用于指示该交互是否引起了部件运动。

Similarity Loss。L1 loss，用于衡量相似性预测和GT accuracy的距离。accuracy以比率的形式进行计算，即训练过程中正确预测/总预测的比值。

6. 实验

首先在有限的训练类别上训练模型，然后使用少量的实例将模型扩展到更广泛的类别上。最后在新类别的未见过实例上证明模型的有效性，证明其学习到了通用的语义和几何信息。同时设置了三个baseline用于比较。

6.1 实验设定

在推和拉两种不同的操作类型上进行实验。在3个训练类别上训练，并在11个新类别上进行few-shot学习，最后从在新的类别上进行测试。

为证明框架鲁棒性，将实验分成了4个不同的训练类别（affordance训练的类别不同，详见文章实验设定）。这些类型包含了旋转和平移的铰接轴。Baseline的训练是使用训练类别中的所有物体训练的，框架的训练是将训练类别分成了train-shape和test-shape两部分，只训练train-shape。

对于few-shot学习，在新类别上进行探索，进行了两个实验：第一个是在所有新类别上同时进行few-shot学习，这需要模型选择物体并与那些未知但具有重要语义的位置进行交互。第二个是在分开的新类别上进行few-shot学习。

值得注意的是，对于few-shot学习每个新类别中只选择10个实例，同时在这些新类别的未见过实例上评估，这是一个具有挑战性的任务，因为它需要模型学习到语义和几何信息进而泛化到未见过的物体。

6.2 Baseline，消融实验和度量

Baseline：

Where2Act：使用部分点云进行视觉可运动性affordance的预测框架。few-shot学习中，Where2Act将在affordance score接近0.5的位置采样交互
AdaAfford：在测试时候通过few-shot adaptation来进行affordance学习。few-shot探索过程中，交互是由一个挖掘特定物体动态信息的curiosity模块提出的。
PointEncoder：预训练的transformer框架，以点云为输入，执行few-shot学习完成分类和分割任务，这个baseline使用预训练的transformer编码器来提取特征用于few-shot affordance的学习。

Where2Act用于比较我们的相似性所代表的确定性（？）与分类任务中定义的确定性（？）的探索能力；AdaAfford用于评估在跨类别下实例级的few-shot学习；PointEncoder使用在大规模数据及上训练的网络与文章提出的框架对比。

消融：

No-explore（lower bound）：affordance模型不经过任何few-shot探索直接在新的物体类别上评估，展现了few-shot学习的下界
Explore-random：文章提出框架的变化版本，通过随机的交互探索新类别
Explore-noSim：文章提出框架的变化版本，使用和Where2Act相同的探索策略，而不是使用相似性模块
Full-data（upper bound）：使用所有类别的丰富的数据在所有类别上训练affordance模块。这表示affordance学习的上界。

指标：