ConceptFusion 论文翻译

别来这个网址

已于 2023-09-08 13:38:18 修改

阅读量633

点赞数 1

分类专栏：论文阅读文章标签：人工智能

于 2023-09-07 20:51:09 首次发布

本文链接：https://blog.csdn.net/m0_68784427/article/details/132716934

版权

论文阅读专栏收录该内容

4 篇文章

订阅专栏

ConceptFusion 论文翻译

本文仅仅是本人在英语水平不够的情况下对原论文的翻译，如果有错烦请指正。

原始论文地址参见：https://arxiv.org/pdf/2302.07241.pdf

下面开始正式翻译：
在这里插入图片描述

摘要

构建三维环境地图对于机器人导航、规划和与场景中的物体进行交互来讲至关重要。大多数现有的集成语义概念与三维地图的方法局限于封闭集合的情况：它们只能对一组在训练时预定义的概念进行推理。此外，这些地图只能使用类别标签或者文本提示进行查询。

我们用ConceptFusion解决了这两个问题，这是一种场景表示，具有以下特点：

基本上是开放集的，可以进行超出封闭概念集的推理；
本质上是多模态的，可以对3D地图进行多样化的查询，包括语言、图像、音频和3D几何，所有这些都可以协同工作。

ConceptFusion利用了今天基于互联网规模数据进行预训练的基础模型的开放集能力，以推理跨足领域如自然语言、图像和音频的概念。我们证明了像素对齐的开放集特征可以通过传统的SLAM和多视图融合方法融合到3D地图中。这使得zero-shot空间推理变得高效，无需额外的训练或微调，并且比监督方法更好地保留了长尾概念，在3D IoU上的表现超过了它们40%以上。我们在多个现实世界数据集、模拟家庭环境、现实世界桌面操作任务和自动驾驶平台上对ConceptFusion进行了广泛评估。我们展示了将基础模型与3D开放集多模态映射相结合的新途径。我们鼓励读者在我们的项目页面上查看演示：https://concept-fusion.github.io/

1. 引言

在日新月异的3D空间感知中，主要的催化剂之一是深度卷积网络用于在大量图像数据集上训练。大多数这些进展都依赖于闭集的概念，即在训练时提供的固定标签集合。然而，最近，深度学习正经历着另一波进展，这一次的进展是随着越来越大和多模态的基础模型在包含数十亿张图像、文本和音频的互联网规模数据上进行训练而出现的。像CLIP 、DINO 、AudioCLIP 以及它们的变种等基础模型在开放集场景上表现出令人印象深刻的性能，其中感兴趣的概念只在推理时提供。在这项工作中，我们弥合了大型基础模型提供的丰富开放集能力与未来3D地图系统所期望的语义推理能力之间的差距。

为了在各种各样的机器人任务中尽可能广泛地应用，地图表示需要具备以下特性：首先，3D地图应该具备zero-shot的可用性（即，在需要进行新任务的推理能力时，无需每次重新训练），并且必须具备以下两种能力：首先，3D地图应该是开放集的；它们应该能够捕捉各种各样的概念（数量级比现有系统多），并且具有不同级别的细节。例如，概念“一罐苏打水”可以等同于“可以喝的东西”或“某个品牌的苏打水”或“一种饮料”。其次，3D地图应该是多模态的；它们应该可以使用机器人或最终用户可以利用的多种模态进行查询。例如，在地图中搜索特定物体应该可以通过单个词语的查询（例如“苏打水”）、包含附加上下文的较长句子（例如“厨房桌上有罐苏打水吗？”）、苏打水罐的图像，或者只是与打开苏打水罐相关的“嘶嘶声”来实现同样良好的效果。

基础模型具备实现开放集、多模态表示所需的一些理想特性，但并不直接适用于3D地图。这主要是因为大多数基础模型消耗图像（例如，CLIP 、ALIGN 、AudioCLIP）并且仅在embedding空间中生成整个图像的单一向量编码。另一方面，最近的方法专门训练基础特征与2D像素对齐，在微调过程中遗忘了大量概念（见图4）。这无法在广泛的概念范围内进行精确（像素级或对象级）的推理，特别是对外部3D世界的交互（例如导航、操作）所需的推理。
在这里插入图片描述
为此，我们提出了ConceptFusion；一种开放集和多模态的3D地图技术，它将图像、语言和音频领域模型的进展与密集的3D重建以及同时定位和地图构建（SLAM）的进展相结合。我们证明，像素级的基础特征可以通过利用与将深度或颜色信息融合到3D地图中相同的表面融合技术融合到3D地图中。关键的是，我们展示了这种方法在概念上简单、原则性强，甚至在零-shot设置下也是有效的（不需要额外的基础模型特征训练或微调）。此外，可以使用计算效率高的向量相似度度量来查询这些特征。我们的主要贡献如下：
• 一种构建开放集多模态3D地图的方法，以零-shot方式构建可由文本、图像、音频和点击查询进行查询的地图表示。
• 一种从只能生成图像级（全局）特征向量的基础模型计算像素对齐（局部）特征的新机制。这是3D地图的关键前提条件，我们的方法明显更好地捕捉了长尾概念，性能远远超过了监督或微调的对应方法（> 40% mIoU）。
• 一个新的RGB-D数据集，UnCoCo，用于评估开放集多模态3D地图。UnCoCo包括78个常见的家庭/办公室物体，标有超过500K的跨模态查询。

2. 相关工作

基础模型以自监督方式在大量数据上进行训练，能够完成各种任务，而无需额外的重新训练或微调。像CLIP 和ALIGN 这样的图像-语言对齐模型将文本和图像编码为共享的概念空间，并在几个开放集任务中取得了进展。它们还扩展到其他模态，如音频和视频。同样，来自仅图像的基础模型（例如DINO ）的特征已被用作处理视觉概念的即插即用解决方案，例如分类、检测、分割、关键点估计。

像CLIP这样的模型只能将概念与整个文本或图像对齐，而不能与图像像素或区域对齐。这催生了一系列提取像素对齐特征的方法，这些方法通过在标记数据集上训练或微调像素对齐模型来解决定位质量差的问题。LSeg 利用了分割数据集中的像素级标签，而OpenSeg 、OVSeg和RegionCLIP 使用图像字幕数据集并采用区域-单词对齐。然而，正如我们在第4.2节中所示，虽然这提高了对微调数据集中存在的概念的性能，但这些模型在稀有标签集中的概念上表现不佳。为了保留基础CLIP模型捕获的所有概念的知识，MaskCLIP提出了一种zero-shot方法，将自注意力与工程化的1×1卷积层相结合，用于开放集分割。然而，正如我们在第4.2节和第5.1节中所示，它在划分对象边界和处理长尾概念方面存在困难。我们提出的像素对齐特征通过在区域提议上操作，并通过对齐跨区域计算的特征来减轻所有上述问题，从而使各种空间推理应用成为可能。

为了将我们的像素对齐特征融合到3D地图中，我们借鉴了密集3D地图制作领域的先驱方法。密集SLAM方法通常用于估计相机运动、场景几何以及可选的颜色信息，这些信息来自RGB(-D)图像。几乎所有这些方法的核心都是来自Curless和Levoy的体积融合技术，已经被改编成用于实时增量捕捉表面几何和颜色信息。在这项工作中，我们将这一系列方法扩展到了以概念上简单且计算效率高的方式将像素对齐的基础特征融合到3D地图中。有一些工作在桥接在线3D地图制作和开放集概念获取之间的研究方面。与此不同的是，我们的工作利用了在离线环境中学习的大型基础特征，这些特征来自数十亿的数据样本。

最近，探索基础模型在机器人领域的方法已经展示出令人印象深刻的开放集交互能力。虽然大多数这些方法侧重于规划和控制，但我们提供了一个与之互补的视角，即构建场景的明确模型并能够查询概念的感知系统。在第6节中，我们展示了这两类方法如何互相增强的前景。

3. 当前工作

当下，有多种方法开始将2D基础特征与3D场景理解相结合。CLIP-Fields将3D地图和像素（或区域）对齐的基础特征编码到紧凑的神经网络中。这个场景特定的神经网络作为一个可查询的数据库，将图像和语言embedding与3D场景点对齐，可以应用于用语言指定的开放集查询。每个场景都会训练一个新的CLIP-Field；尚不清楚学到的CLIP-Fields是否有可能泛化到新的场景或场景内的变化。

VLMaps 、LM-Nav 、CoWs 和NLMap-Saycan 利用了来自像素对齐的LSeg 模型的开放集特征，以基于语言命令的机器人导航。OpenScene 应用像素对齐的LSeg 和OpenSeg 进行了开放集3D分割，展示了这些2D提取器的特征可以被提炼成在3D数据上操作的神经网络。Ding等人还将更复杂的2D开放集任务（如图像字幕）的特征提炼到了一个消耗3D数据的模型中。与上述方法的根本不同之处在于，我们展示了在映射过程中能够以zero-shot的方式构建2D和3D特征，而不需要任何微调或提取。这种zero-shot能力也是我们在处理长尾概念和复杂查询以及与其他模态的对齐方面性能优越的关键因素。

Mazur等人最近提出的方法]实现了将来自基于图像的基础模型（例如DINO ）的特征实时融合到紧凑的3D神经地图中。与此不同的是，我们的方法在实现开放集的能力的同时，扩展到了多个模态，例如语言和音频，提出了一种从CLIP中提取逐像素特征的新方法。

也许与我们方法最接近的是Ha和Song的语义抽象方法，他们也提出了一种zero-shot方法来计算与3D对齐的CLIP特征。他们探索了一种不同的机制（注意力可解释性）来提取与文本查询对应的相关区域，并展示了一套互补的能力（完成部分观察到的对象，从语言描述中定位隐藏的对象）。在这项工作中，我们侧重于将CLIP特征无条件地分配给图像像素，然后分配给各种各样的3D感知和机器人任务中的3D地图。

4. ConceptFusion的实现

开放集多模态3D地图问题：给定一个环境的图像（和深度）观测序列 $\{I_t\}(t\in\{0\cdots T\})$ ，我们构建一个开放集多模态3D地图 M。这个地图可以用来查询来自多个模态的概念，使用查询向量 $q_{mode}\in R^d$ 。图像、文本、音频和点击等多维信号可以使用模态特定的编码器（基础模型） $F_{mode}$ 编码到类似这样的向量空间中。

我们首先提出了一种通用的扩展了传统的密集映射方法的特征融合技术，除了颜色和深度信息外，还包括了逐像素特征。然后，我们提出了一种从现成的基础模型（如CLIP 、AudioCLIP 其变种）中以zero-shot方式计算像素对齐特征的算法。

4.1 将像素对齐的基础特征融合到 3D

地图表示：我们将我们的开放集多模态3D地图 M 表示为一个无序的点集（由索引 k 索引），每个点具有以下属性：
(a) 顶点位置 $\overline{v}_k\in R^3$
(b) 法线向量 $\overline{n}_k\in R^3$
© 置信度计数 $\overline{c}_k\in R^3$
(d)3D颜色向量（可选）
(e) 概念向量 $f_k^P$ ，使用其可以进行开放式查询。

帧预处理：每个传入的帧 It（包括彩色图像 $C_t$ 和深度图像 $D_t$ ）都经过预处理，以计算顶点-法线映射（ $V_t$ , $N_t$ ）和相机姿势估计 $P_t$ 。此外，如第4.2节所述，我们计算输入图像 $X_t$ 中每个像素的语义上下文embedding $f_{u,v,t}^P\in f_{X,t}^P$ 。

特征融合：我们按照3D重建流水线将 $f_{u,v,t}^P$ 和 $X_t$ 融合到全局地图中。首先，使用相机姿势 $P_t$ 将顶点图和法线图映射到全局（地图）坐标框架中。然后，按照Real-time 3d reconstruction
in dynamic scenes using point-based fusion中描述的深度图融合过程，滤除具有嘈杂深度值的点。剩下的点被融合到全局地图 M 中。上述方法与密集映射方法的关键区别在于，除了深度（可选的颜色）外，还融合了概念向量 $f_{u,v,t}^P$ 。对于图像 $X_t$ 中对应着点 $p_k$ 的每个像素 $u,v)_t$ ，我们使用以下方案集成这些特征。
$\begin{aligned}\mathbf{f}_{k,t}^P&\leftarrow\frac{\bar{c}_k\mathbf{f}_{k,t-1}^P+\alpha\mathbf{f}_{u,v,t}^P}{\bar{c}_k+\alpha}&(1)\\\bar{c}_k&\leftarrow\bar{c}_k+\alpha&(2)\end{aligned}$
其中 $\alpha=e^{-\gamma^{2}/2\sigma^{2}}$ 是分配给被聚合的每个与像素相关的特征的置信度， $\gamma$ 是径向距离， $\sigma = 0.6$ 是一个缩放项。我们地发现基于到相机中心的归一化径向距离的置信度值效果很好。

4.2 计算像素对齐的特征

尽管一些方法已经调整了像CLIP这样的基础模型，但这些方法需要在标记的图像文本数据上进行额外的训练。这会导致像素对齐以及在数据集内的概念上更强的性能，但我们观察到（见图4），这些模型在细粒度的概念上表现不佳，这些概念在微调数据集中不存在。为了缓解这个问题，我们引入了一种新颖的机制来构建像素对齐的特征，将像CLIP这样的模型中包含的全局（图像级别）上下文与局部（区域级别）信息结合起来。
在这里插入图片描述
概览：图2为我们提供了本节的广泛概述。给定输入图像 $X\in R^{3*H*W}$ ，我们的方法使用基础模型 F 作为特征提取器，生成三种类型的embedding，我们称之为全局embedding $f^G)$ 、像素对齐embedding $f^P)$ 和局部embedding $f^L)$ 。全局embedding $f^G)=F(X)$ 就是简单粗暴的整个图像的embedding。
局部embedding：我们使用通用实例分割模型[55]生成一组 $R$ 个无类别标记的掩码提议（对应于可能包含对象的图像区域）。区域不一定是连续的，我们为每个图像生成100个掩码提议。接下来，对于每个区域 $r_i \in R$ ，我们定义一个包围它的边界框 $b_i = bbox(r_i)$ 。这些边界框通过模型 F 传递，以获取局部embedding $f_i^L = F(b_i)$ 。
融合局部和全局特征：每个区域的像素对齐embedding是全局embedding和相应的局部embedding的加权组合。每个局部embedding的权重基于它与全局embedding $f^G$ 以及其他embedding $f_i^L$ 的相似性计算而来。具体来说，我们计算余弦相似度
$\phi_i=\left\langle\mathbf{f}_i^L,\mathbf{f}^G\right\rangle=\frac{(\mathbf{f}_i^L)^T\mathbf{f}^G}{\|\mathbf{f}_i^L\|\|\mathbf{f}^G\|+\epsilon}\quad\quad(3)$
在局部特征 $f_i^L$ 和全局特征 $f_i^G$ 之间以及所有局部embedding对之间计算余弦相似度，即 $\varphi_{ij}=\langle\mathbf{f}_i^L,\mathbf{f}_j^L\rangle:\forall i,j$ ，其中 $r_i,r_j \in R$ 。接下来，对于每个局部embedding $f_i^L$ ，我们计算它与所有其他局部embedding的平均相似度 $\overline{\varphi}_i$ 。这考虑到了图像中 $f_i^L$ 区域的独特性。
$\bar{\varphi}_i=\frac1R\sum_{j=1,j\neq i}^R\varphi_{ij}\quad\quad\quad\quad(4)$
我们结合上述两种相似性来计算混合权重 $w_i \in [0,1]$ （温度参数 τ 为1，适用于所有报告的结果）。
$w_i=\frac{\exp\left(\frac{\phi_i+\bar{\varphi}_i}\tau\right)}{\sum_{i=1}^R\exp\left(\frac{\phi_i+\bar{\varphi}_i}\tau\right)}\quad\quad\quad(5)$
最后，每个区域 $r_i$ 的像素对齐特征可以表示为:
$\mathbf{f}_i^P=w_i\mathbf{f}^G+(1-w_i)\mathbf{f}^L\quad\quad\quad(6)$
这个权重会进行归一化，并映射到区域 $r_i$ 中的像素 $(u, v)$ 。我们允许每个像素属于多个区域；一旦它从区域 $r_i$ 中积累了特征 $f_i^P$ ，相应的像素对齐embedding $f_{u,v}^P$ 会进行归一化。

捕获长尾概念：我们发现，与LSeg和OpenSeg等将CLIP特征与像素对齐的方法相比，我们的像素对齐embedding更好地捕获了细粒度和长尾概念。我们在图4中进行了说明。我们观察到（右侧面板），LSeg和CLIP使用的基础CLIP模型知道概念“diet coke”、“lysol”和“yogurt”；然而，微调（像素对齐）模型不知道这些概念。这是由于微调类似于CLIP的模型时出现的遗忘现象。LSeg和OpenSeg需要在概念有限的数据集上进行微调，以获得分割能力。然而，这个微调过程损害了它们对长尾和细粒度概念的零-shot泛化能力。相比之下，ConceptFusion提供了一种将基础特征映射到像素和3D点的新方法，因此它保持了零-shot能力，并准确地将长尾概念与相应的像素对齐，如图4中的中间图所示。
在这里插入图片描述

4.3 在3D特征融合地图上进行多模态查询

ConceptFusion重建的3D地图可以使用多种模态进行查询。给定查询 $q_{mode}$ 具有融合概念的地图 $f_k^P$ ，我们计算每个点的分数 $s_k \in [−1, 1]$ ，这个得分是余弦相似度，定义为 $s_k = <f_k,q_{mode}>$ 。查询用的 $q_{mode}$ 的计算方式会根据用于查询的模态而改变。

文本查询： $q_{text}$ 是使用相应的CLIP文本编码器 $F_{text}$ 计算的。
点击查询： $q_{click}$ 是在点击的点处获得的融合特征向量 $f_k^P$ 的token
图像查询： $q_{image}$ 是通过对查询图像进行图像级别的CLIP embedding计算得出的。
音频查询： $q_{audio}$ 是查询音频剪辑的AudioCLIP embedding。

然后，可以通过基于分数的阈值处理、非极大值抑制和（可选的）聚类来后处理相似性，以生成感兴趣的3D区域。

4.4 构建复杂的3D空间查询模块

将特征融合到3D空间中的独特功能包括：1.能够推理关于从未在图像中同时观察到的对象的能力 2.能够推理关于仅从3D表示中可访问的空间属性（如相对位置、方向、支持、包含等）的能力。为此，我们利用相似性分数来构建一组3D空间比较器（3DSC）模块，可以进一步组合以恢复（recover，译者注）更复杂的属性。
我们的一组3DSC都采用关系签名 $RELATION(QUERY_a, QUERY_b)$ ，并根据需要返回标量或布尔值。完整的3DSC集包括：

$HOWFAR(q_a, q_b)$ 3DSC 返回由查询 qa 和 qb 引用的对象之间的距离。
布尔型的3DSCs $ISTOTHERIGHT(q_a, q_b)$ 、 $ISTOTHELEFT(q_a, q_b)$ 、 $ONTOPOF(q_a, q_b)$ 和 $UNDER(q_a, q_b)$ 根据由查询 $q_a$ 和 $q_b$ 引用的对象是否满足适当的空间关系（相对于指定的观察方向）返回 $TR U E$ 或 $F A L SE$ 。

在第6节中，我们可以选择采用一个大型语言模型来解析语言查询为适当的3DSCs组合。例如，查询“冰箱和电视之间的距离是多少？”被解析为 $H O W F A R (re f r i g er a t or, t e l e v i s i o n)$ 。这在图5中有示例。
在这里插入图片描述
然而，在本文中呈现的所有其他结果（除非另有说明），语言查询都直接输入CLIP文本编码器，没有进行任何预处理。
实现细节：我们的特征融合算法是基于∇SLAM 密集SLAM系统实现的，因为这是PointFusion算法的少数几种实现之一，并且便于与PyTorch进行计算与访问基础特征。为了生成类无关（通用）的对象掩码，我们使用Mask2Former模型进行实例分割，并为每个图像生成100个掩码提议。我们的里程计和地图构建方法以15帧每秒运行。像素对齐的特征提取过程在NVIDIA RTX 3090 GPU上离线运行 (10–15
seconds / image)。

5. 案例研究

我们设计了一项系统性的实验研究来探讨以下问题：

当使用文本、图像、点击或音频查询时，开放式多模态3D地图的表现如何？
如何利用嵌入到3D中的丰富概念空间进行空间推理？
ConceptFusion在现实世界的机器人任务中表现如何？
ConceptFusion能够实现哪些以前不可行的下游应用场景？

实验设置：我们的实验基准包括来自多个公开可用数据集以及我们收集的序列。该基准包括来自ScanNet 、Replica以及我们自己捕获的20个室内（公寓规模）场景序列，5个室外（城市驾驶）场景，包括20个室内（桌面）场景，其中包括常见的家庭产品（UnCoCo），以及来自ICL和iTHOR基准的5个合成场景。
评估方法：由于在构建与ConceptFusion类似的开放式多模态地图方面没有类似的研究，因此我们尽力与该领域的同时工作进行比较。诸如VL-Maps、NLMap-SayCan 、CoWs、CLIP-Fields 这样的方法利用了LSeg，而OpenScene 则对LSeg和OpenSeg 进行了实验。因此，我们分别实现了两种基线方法，分别利用了LSeg 和OpenSeg 特征，并应用我们的特征融合技术来获取开放式三维地图。我们将这些基线称为LSeg-3D 和OpenSeg-3D。此外，为了与最先进的zero-shot分割方法进行比较，我们还实现了MaskCLIP-3D，它将每个像素的MaskCLIP 特征融合成一个三维地图。

5.1 UnCoCo数据集上的多模态查询

据我们所知，目前没有现有的系统支持像ConceptFusion这样多样化和多种模式的查询，因此也没有公开可用的数据集来评估这样的系统。

UnCoCo：为了弥补这一空白，我们制作了我们自己的数据集，称为UnCoCo，全名为Uncommon contexts for Common Concepts。这个源自现实世界的数据集包括放置在桌面上的78个常见的家庭用品和办公室用品的3D扫描（见图6）。总共有20个RGB-D图像序列，包括总共12075个彩色和深度图像对。对于每个图像，我们提供了每个物体的2D实例分割掩码，对于每个场景，还提供了相应的3D分割掩码。重要的是，UnCoCo支持多种查询模式——文本、点击、图像和音频。对于每种查询模式，我们提供了一个结构化集合和一个非结构化集合。结构化集合包括经过精心策划和审核的查询，而（规模更大的）非结构化集合则收集了来自网络规模数据的查询文本和图像。这个数据集中的每个图像都有3-5个物体；每个物体有一个结构化文本查询，和5-40个非结构化文本查询（自由查询，由人类注释员从众包中获得）；最多20个结构化点击查询和最多100-2000个非结构化点击查询；10个结构化图像查询和10-100个非结构化图像查询；以及1-5个结构化音频查询。UnCoCo包含了各种查询模式的50多万个查询，是迄今为止唯一支持常见物体的多模态3D查询评估的数据集。
在这里插入图片描述
文本查询：我们在UnCoCo数据集上评估了基于文本查询的物体定位性能。由于数据集中物体的多样性，从极小的物体（例如4克的糖袋、白板标记笔）到薄物体（例如口罩、光盘）再到非凸几何形状的物体（例如搅拌器、乐高积木构造、贝壳），这项任务非常具有挑战性。我们评估了两种最先进的基于像素的CLIP对齐特征提取器LSeg 和OpenSeg，它们需要在大规模标记的数据集上进行额外的训练；以及MaskCLIP ，这是基于文本提示提取零-shot每像素标签的当前最先进方法。结果如表1所示。对于每种评估的技术，我们报告了3D平均交并比（IoU）度量，以及在IoU阈值为0.15、0.25和0.5时的检测准确性。我们看到ConceptFusion在性能上显著优于所有其他方法。我们将这归因于ConceptFusion的两个关键特点。首先，ConceptFusion在未经修改的CLIP特征空间上运行，而LSeg和OpenSeg等方法专门用于它们进行微调的数据集，并逐渐忘记在微调集中不常见的概念。其次，ConceptFusion特征有效地将全局（图像级别）特征与局部（区域级别）上下文相结合，提供了丰富的像素级（随后是点级）基础。正如在表2中报告的非结构化文本查询集中观察到的，ConceptFusion在面对非结构化查询（长句子）时表现出更为平稳的性能下降趋势。
在这里插入图片描述
图像查询：在表3中，我们展示了将查询概念以图像形式呈现时的结果。举例来说，如果我们要在3D场景中查找一罐苏打水，我们会提供从网络上随机选取的苏打水罐的图像。在这里，我们再次观察到ConceptFusion在3D mIoU和检测准确性方面的性能明显优于其他微调的基础模型。有趣的是，我们注意到大多数方法在文本和图像模态之间的性能表现一致，如mIoU和检测指标所示。
在这里插入图片描述
音频查询：我们研究的一个独特能力是基于音频查询定位3D对象。我们在UnCoCo数据集上进行实验，该数据集包含两类音频查询。源模糊查询包括由于物体的材料属性和几何形状以及通常涉及物体运动（包括划痕、刮擦、滚动、压碎、撕裂等）而引起的声音。生态学查询包括对物体（或类别）独特的声音 - 这些声音包括喷雾、钻孔、搅拌、敲击、点击等声音。为了弥补缺乏开放式声源定位基线，我们实现了一个特权信息基线，通过为每个图像提供一组地面实例框，并使用计算的相似性分数来排名每个框与查询音频的相关性。结果见表4。然而，我们注意到，仅使用局部上下文（与AudioCLIP基线一样）性能不够好，而ConceptFusion特征，它融合了全局和局部上下文，再次表现出比纯局部特征更好的性能。
请添加图片描述

5.2 在其他数据集上进行开放式语义分割

我们还在包含一般性概念的现有数据集上评估了语义分割性能（这些概念的类别可以通过COCO Captions 直接或间接访问，这个数据集也用于其他像素对齐模型的微调）。具体来说，我们在ScanNet 、Replica和SemanticKITTI数据集的验证子集上提供了结果，并在表格5中展示了这些结果（详细信息请参阅我们的附录）。在我们提出的方法中，LSeg需要像素级的CLIP特征作为标签，OpenSeg利用每个图像的字幕作为标签，CLIPSeg在CLIP图像编码器之上训练了一个浅层解码器。MaskCLIP是最接近的zero-shot基线；但是我们在性能上明显优于它。
在这里插入图片描述

5.3 对实际机器人系统进行的实验

我们在真实机器人系统上进行的实验也可以在此处查看：https://concept-fusion.github.io/

zero-shot桌面重新排列：为了评估ConceptFusion在实际机器人交互中的适用性，我们使用UR5e机械臂和Intel Realsense D415 RGB-D相机进行了零样本桌面重新排列任务的实验。该任务涉及到一个工作空间（在这里是一个桌面），其中放置了一些以前未见过的物体。在某些试验中，物体集合还包括了放置以妨碍感知和/或操纵规划的干扰物。工作空间的两侧（见图8）分别标记为左侧和右侧（即表格的两侧，如绿线和黄线所示）。对于每组物体，以自然语言命令的形式指定了目标指令。例如，图8中的两种情景对应于命令：spindrift向左；goldfish向右；coca cola向左（上排）和baymax向右（下排）。这个任务以多种方式挑战了我们系统的感知能力。首先，ConceptFusion必须识别与文本查询相对应的正确物体。其次，物体定位必须精确，以允许末端执行器执行成功的运动规划；将物体移动到其目标位置，同时考虑干扰物。在ConceptFusion识别和分割出感兴趣的物体之后，我们估算出物体的质心，作为深度图像中感兴趣区域的中值。然后，机器人手臂通过计算运动规划（使用AIRobot库）来将物体推向指定的目标区域（即左侧或右侧）。
在这里插入图片描述
基于文本的自主导航：我们在自动驾驶平台上使用ConceptFusion进行开放式自主导航。给定一个环境的特征融合地图，我们在地图中搜索与文本查询最匹配的目的地，然后自主导航到所选位置。我们使用了一辆配备校准的立体摄像头和激光雷达的电控驱动自动驾驶汽车，以重建一个32万平方码（4000平方米）的城市区域地图。激光雷达产生的3D地图点由激光雷达里程计算法（LeGO-LOAM ）用于全局定位，而融合的特征用于开放词汇查询以生成全局路径点。自主导航系统的其他组成部分包括最短路径全局规划器、用于避障的Frenet局部规划器以及用于轨迹跟踪的Stanley控制器。这使我们能够根据自然语言查询导航到开放式目标。在我们的现场试验中，我们评估了多个目标，如垃圾箱、环形交叉口、入口大门等。图9说明了这个过程，以一个文本查询“足球场”为例。请参考我们的项目页面和补充视频以查看此演示。
在这里插入图片描述

6. 展望

在本节中，我们提供了关于机器人基础模型中其他新兴方向的观点，以及开放式多模态3D地图如何增强和扩展这些模型的能力。

三维空间推理能力：我们还评估了我们可查询地图在三维空间中推理物体关系的独特能力。我们在来自ScanRefer验证集的5个场景上生成了一组100个（自然语言）空间推理查询。这些查询分为4组（每组25个查询），每组设计用于评估特定类型的三维空间关系 - 距离、相对位置（例如，左侧）、支撑（例如，位于顶部）和包含关系。这些查询被选择以便（a）每个查询引用两个物体，以及（b）两个物体在单个图像中被共同观察到（候选物体是使用基于距离的阈值提议的，并使用图像分割标签进行验证），用于距离和相对位置查询集。结果呈现在表6中，并与仅使用通过反投影单个RGB-D图像获得的点云（2.5D）的基线方法进行了比较。在需要推理从未在图像空间中共同观察到的物体的距离和相对位置查询中，该基线性能较差。在支撑和包含查询中，基线显示出更好的性能，因为这些关系可以主要从图像观察中获取。然而，对于需要额外上下文的房间级包含查询（例如：在），该方法仍然失败。图5展示了两个在2D中从未共同观察到的物体之间的距离查询的示例。
在这里插入图片描述

在这里插入图片描述
与大型语言模型（LLMs）的集成：像SayCan 这样的系统已经证明了大型语言模型作为可查询的知识库的可行性，可以用来生成由较低级别技能执行的任务级别计划。通过ConceptFusion，我们可以通过自然语言（以及其他模态）接口来补充这些任务规划和推理能力的感知系统。为了证明这一点，图10展示了来自AI2-THOR互动家庭模拟器的两个情景。在每个情景中，机器人的任务是找到一个感兴趣的物体，但该物体不在它的地图中，因为它被藏在一个容器中。我们研究了一个通用LLM-Agent（大型语言模型[56]）和一个ConceptFusion-Agent（通用LLM-Agent配备了从我们的地图查询出的一组房间和物体）的行为。如图10所示，虽然通用LLM-Agent能够生成看似合理的子目标来完成任务，但由于缺乏地图知识，它的成功受到了限制。另一方面，ConceptFusion-Agent通过将LLM的生成能力限制在特定场景上下文中，成功完成了这两项任务。
在这里插入图片描述
多语言能力：由于ConceptFusion是zero-shot的，因此它可以直接应用于任何现有的基于图像级别的基础模型，无需额外的微调。为了证明这一点，我们从多语言的CLIP模型中计算出像素对齐的特征，并将我们系统的能力扩展到以多种其他语言进行查询的解释和执行，如图11所示。
在这里插入图片描述

7. 结论

在这项工作中，我们提出了ConceptFusion作为解决开放式多模态3D映射问题的有效解决方案。我们的方法具有zero-shot性质，可以在广泛的概念范围内进行推理，利用现成的基础特征来进行开放式感知。我们在内部和已建立的数据集以及两个真实机器人系统（一个操纵器和一个自动驾驶车辆）上评估了我们的方法。我们的结果表明，有许多有希望的途径可以将在Web规模数据上训练的基础模型与传统映射系统集成，以实现zero-shot、开放式和多模态感知。

我们的方法存在以下三个主要限制。