【计算机图形学】ImageManip: Image-based Robotic Manipulation with Affordance-guided Next View Selection

passer__jw767

已于 2024-03-18 22:04:25 修改

阅读量685

点赞数 17

分类专栏：计算机图形学文章标签： 3d 机器人

于 2024-03-15 19:01:14 首次发布

本文链接：https://blog.csdn.net/passer__jw767/article/details/136747646

版权

计算机图形学专栏收录该内容

43 篇文章 13 订阅

订阅专栏

对ImageManip: Image-based Robotic Manipulation with Affordance-guided Next View Selection的简单理解

1. 为什么要做这件事

现有许多工作使用3D点云作为操纵策略方法的主要输入，但是使用3D点云的方法存在的缺陷是：获取点云数据需要巨大的成本，且还可能存在稀疏性的问题，限制了它的实际应用。

2. 做了件什么事

提出了一个新的基于图像的机器人操纵框架。这个框架捕捉目标物体多个视角下的信息，并推理深度信息，以补充它的几何形状

初始使用手眼RGB相机来捕捉目标物体的整体视野。它预测初始深度图和粗糙的Affordance map。Affordance map指示物体上的可交互区域，并为后续选择视点提供了限制。基于整体的视觉先验，可以自适应性地找到下一个最佳视点，以详细观察潜在的操纵成功区域。

利用几何一致性混合多视图的信息，得到一张精细的深度图和一个更加精确的、用于机器人操纵决策的Affordance map。

3. 介绍

最近有很多利用深度估计来补全RGB图像几何信息的技术。为了利用RGB模式的好处，引入了RGB-only的机器人操纵框架。

在这里插入图片描述

首先捕捉一张全局的图像，粗略的预测初始深度图和粗略的Affordance map。

由于单视图的限制，该工作继续捕捉其他视角下的图片并将他们的特征混合来构建综合的视觉表达。关于如何找到这个“其他视角”，在这篇工作中提出了一个“下一个视角选择模块”，动态地确定最佳相机位置，并基于全局先验捕捉不同图像。

在获得了下一个视角的图像后，将不同视角的特征混合，获得精细的深度图，并改进对物体3D结构的估计。同时获得更加精细的per-pixel的affordance map，提供更加精确的区域指示。这个提升后的Affordance map，又作为下一个视角选择模块的监督，其目标是选择一个好的视角，这个视角能够提供更多额外的、对于操纵来说有价值的信息。

4. 相关工作

在机器人控制和规划中广泛使用的方法是基于状态的强化学习方法。一些工作已经确定使用纯状态作为策略的输入，但在复杂的设定下，一些基于视觉的观察非常有必要，以获得精细3D几何信息。

很多视觉的方法都是为了通过视觉感知机器人操纵的环境。有很多方法仅使用点云观察作为输入。还有人聚集了RGB图像和点云作为输入用于铰接物体操纵和物体抓取。

仅有点云信息回带来的挑战是，当遇到镜面或者透明物体时，会干涉深度相机的成像过程。因此很多工作讨论RGB-only的输入用于鲁棒的机器人操纵。

在该工作中探索基于RGB的操纵，通过RGB图像获得深度信息来感知物体的3D结构。

另外还有很多工作证明了通过Affordance预测来改进基于视觉的机器人操纵的可能性。在Where2Act中，Affordance被定义为逐点可运动性分数，在RLAfford中，Affordance被定义RL探索过程中的接触概率。在该工作中，follow了Where2Act的定义，但是拓展了他们自身对于Affordance的考虑，将Affordance作为一个显式的限制在训练和推理过程中缩减机器人end-effector可能的运动范围。

5. 方法

5.1 整体框架

图1是整体的框架。初始时候捕捉整体图像 $I_1∈\R^{H×W×3}$ ，并获得视觉先验深度图 $D_1∈\R^{H×W×1}$ 和Affordance map $A_1∈\R^{H×W×1}$ 。

基于这个全局视觉先验，下一个视角选择最优相机位置来捕捉最好的下一张图像 $I_2∈\R^{H×W×3}$ 。 $I_1$ 和 $I_2$ 以一种token-wise的方式（没读懂）融合生成更加精细化的视觉先验，得到精细化的深度图 $D_2∈\R^{H×W×1}$ 和Affordance map $A_2∈\R^{H×W×1}$ 。进一步生成end-effector方向和动作建议以及动作分数。

在这里插入图片描述

5.2 获得全局视觉先验

给定全局图像，目标是获得全局视觉先验，即初始深度图和初始Affordance map。全局视觉先验用于下一阶段的视角选择的条件，并为操纵策略提供全局观察。

初始深度图：从 $I_1$ 中用ResNet-18提取逐像素的特征 $F_1$ 。并应用深度估计网络 $D_d$ 将全局特征转换为初始的深度估计图 $D_1$ 。整一个是U-Net结构，有跳跃连接。通过L1 loss，使用GT深度图来监督。初始深度图的目的是帮助寻找下一个视角的相机放置。

初始Affordance：Affordance map的目标是找到感兴趣的操纵区域，并使得下一个视角的观察可以注重与这个区域。其是将全局特征转换为逐像素可操纵概率 $a_p∈[0,1]$ 。 $D_a$ 使用二进制损失监督。将2D Affordance投影到初始深度图，可以估计3D空间中感兴趣的操纵区域。在基于全局视觉先验识别下一个视角 $I_2$ 后，将它的特征聚集到全局视觉特征中，构建综合的视觉表达，用于提升深度估计和Affordance预测。在确定下一视角的过程中，我们可选择下一个视角来最大化预测成功操纵的概率。

5.3 几何一致的图像混合

引入几何一致的混合，来连接全局视图和后续视图的特征。这种混合极具挑战性，因为两个视图之间的角度不符合，可能会导致模糊的问题。为解决这个问题，首先找到初始Affordance map中具有最高分数的点 $p_1$ 。使用这个点作为相机中心，并凭借初始深度图的帮助来将相机放置在3D空间中。虽然一开始的深度图可能不准确，会影响相机放置位置，但不影响其方向，仍然可以选定 $p_1$ 为中心，以确保机器人末端夹持器移动是朝向这篇非常有可能被操纵区域的，从而避免引入额外必要移动的问题。

为找到两个视角间的pixel-wise对应关系，使用 $D_1$ 将 $I_1$ map到三维空间中，并将其投影到 $I_2$ 对应的相机坐标下。但可能会存在align失误的问题，因为 $D_1$ 不准，从而导致逐像素混合过程中不精确度累积。为避免此问题，尝试在编码后执行token-wise fusion。 在低分辨率下执行token-wise fusion，一个token聚合 $n \times n$ 个像素的特征， $n$ 是高维的特征。即使在pixel correspondence会有问题，但只要correspondence pixels落在了正确corresponding点附近由n×n个像素组成的token内部，就不会引入其他的错误，这使得更能容忍深度估计的不正确性。

基于pixel的对应关系来确定token的对应关系。搜集一个token内部所有pixel的correspondence，选择最相关的token。在图2中，新采样的图像通过同样的编码器编码后，将新视角下的信息迁移到global view里边。如果在 $F_2$ 中有对应到 $F_1$ 的token，就合并，如果没有则保留 $F_1$ 的内容。获得了混合特征后，通过解码器从特征中获得精细深度图 $D_2$ 和Affordance map $A_2$ 。最后利用精细化的深度图将Affordance map投影到3D空间中，选择具有最高Affordance分数的点作为接触点，与物体交互。

5.4 下一视角选择

经分析，在移动手眼相机的过程中，可能会捕捉到许多无法提供额外信息的图像，导致一些不必要的冗余。因此该部分的选择机制的目的是：通过选择有用（有信息量）的视图确保高效的操纵移动，进而减少合并的视图。也就是选择最有意义的视图，不要无法提供额外信息的视图。

最佳下一视角选择模块：基于之前global view的信息，训练一个下一视角建议网络，来获得下一张图像 $I_2$ 。

训练过程中，捕捉 $I_1$ 后，应用Where2Act中的策略搜集模块，随机地选择接触点 $p$ 进行物体交互，并将周围的3D空间分离成几个候选区域。相机随机放置在包含点 $p$ 的候选区域来捕捉下一个视图 $I_2$ 。最佳视角选择模块 $D_v$ 学会基于全局特征评估下一视角位置。通过训练这个视角选择模块，在推理过程中，使用初始深度图将初始Affordance map投影到3D空间中，粗糙地辨别感兴趣的操纵区域。这样的训练使得机器人能够做出关于下一视角的最佳决策。

下一视角选择的监督：基于全局视角特征、相机姿态信息，模块输出在给定相机姿态下的下一个视角概率。这个模块的监督基于 $A_2$ 相较 $A_1$ 的改进来判断的。产生Affordance map的模块是一个二进制分类模块，给每个像素一个置信分数，指示在上面能否进行操作。

在搜集GT的时候，如果 $c_2$ 比 $c_1$ 更好，则分配值1，否则分配-1。 $c_1$ 和 $c_2$ 表示给定像素的affordance预测分数。在图像上的所有像素计算这个平均分数，如果下一视角>0则该视角被认为是有价值的，表示affordance预测的置信分数在所有像素上增长了50%。使用二进制分类损失来监督。

5.5 操纵计划

给定从Affordance map $A_2$ 选择的接触点 $p$ 的混合特征，还有一个从高斯分布中采样的 $z$ ，通过 $D_r$ 提出能匹配GT交互方向的候选动作，通过两个6D旋转损失监督。

同时，为了从所有候选中选择一个动作，应用 $D_s$ 评估预测的动作 $R$ 的操纵成功概率。使用 $D_a$ 监督因为这两个模块高度相关。通过给定的像素特征 $f^2_p$ ，从 $D_s$ 计算100个候选建议的100个成功分数，通过MSE loss受 $D_a$ 的监督。

这里好像和Where2Act是反过来的，Where2Act的 $D_a$ 受到 $D_s$ 的监督。而这里好像是 $D_s$ 受到 $D_a$ 的监督。这里的 $D_a$ 是使用二分类损失，通过GT进行监督的。

力反馈闭环调整：能够从精细化后的affordance map获得contact poit和gripper方向 $(p, R)$ ，完成与物体的第一次交互。但存在的限制是基于视觉的闭环物理操纵（不懂什么意思，但是好像接下来解释了下），当尝试在第一步交互后操纵物体，gripper将会离得太近（应该是离物体太近），导致缺少用于生成后续 $(p, R)$ 对的视觉观察信息。

为了战胜这个问题，采用了一种不同的方法，从施加在机械臂上的力获取信息，而不需要将摄像头向后移动。该控制策略利用了目标pose，当前pose，初始pose来计算中间pose，接着将这个中间pose输入到到阻抗控制器（依赖某一篇具体的文章）中。这个控制器可以生成 $(p, R)$ 的序列，高效地将机械臂转向中间pose，进而一步步完成long-term的操纵。这个方法使得该工作开发一种可信的操纵策略，其抗干扰能力强，能够handle旋转和棱柱两种铰接类型。