AdaAffoord论文笔记

爱嘤嘤的小猪仔

已于 2022-03-28 09:38:57 修改

阅读量3.7k

点赞数

文章标签：计算机视觉人工智能

于 2022-03-27 20:32:00 首次发布

本文链接：https://blog.csdn.net/weixin_43199832/article/details/123773250

版权

论文链接：https://arxiv.org/pdf/2112.00246.pdf

应用背景：

通过增加少量的机器臂和物体的快速交换，使得家庭辅助机器人知道如何正确打开关闭抽屉、柜子、开关等。

现有问题：

现有的方法没有发掘隐藏的运动学细节，如下图所示，当没有明确的门把手信息时，现有的方法会将可能的开启位置均匀化（图中（b）列的第一行所示，柜子的边缘的一周都标上差不多颜色，表示都有可能是开启的位置），但这个样子无法满足家庭辅助机器人的要求。
在这里插入图片描述

主要方法和创新点：

通过在测试时加入少量机械臂和物体的交互，使得机器人可以准确地感知正确的抓取位置和施力方向。
记物体为 $O\in \mathbb{R}^{N×3}$ ，输出的热图为 $A\in [0,1]^N$ ，热图上某位置的数字对应于该位置是有效抓取点的可能性大小，机械臂夹子的朝向使用 $R_i^p\in SO(3)$ 表示，其中 $p$ 为物体 $O$ 上的一点。 $s_i^p\in[0,1]$ 表示对应的 $R_i^p$ 可以实现成功交互的可能性（具体说来，就是用机械臂的夹子夹住 $p$ 点，并且夹子朝向 $R$ 施力时可以正确完成，比如说打开柜子等任务的可能性大小）。记每一次的尝试为 $I_1=(O_i, p_i, R_i, m_i)$ ，这里 $m_i$ 表示在用机械臂的夹子夹住物体 $O_I$ 上 $p_i$ 点，并且夹子朝向 $R_i$ 施力时，物体的状态该变量，比如说抽屉被拉出来多少距离，柜子打开多少角度等。从而构成交互（这里的交互就是指每一次尝试，包括选择抓取点和施力方向）序列 $\mathcal{I}=\{I_1, I_2, \cdots\}$ 。一开始的初始化热图 $A$ 是由Where2Act网络（现有的工作）预测得到的，在经过 $\mathcal{I}$ 中的交互后的，得到的热图记为 $A_{\mathcal{I}}\in [0,1]^N$ 。同样， $s_i^p$ 更新为 $s_{i,\mathcal{I}}^p$ 。

架构

主要由AIP(Adaptive Interaction Proposal)和APP(Adaptive Affordance Prediction)两部分构成。AIP的主要目的是生成少量有效的交互方式，即生成 ${\mathcal{I}}$ ，AAP的主要作用的预测 $A_{\mathcal{I}}$ 。

测试阶段

如下图所示，首先根据Where2Act网络预测的热图 $A$ ，AIP生成第一次的交互 $I_1$ ，送入到AAP中，以此类推，在第t次过程中，生成的交互为 $I_t$ ，到目前为止一共进行了 $\mathcal{I}_t=\{I_1,\cdots,I_t\}$ 次交互，将 $\mathcal{I}_t$ 作为输入，送入到APP中，可以得到隐藏信息 $z_{\mathcal{I}_t}\in \mathbb{R^{128}}$ 。AIP以 $z_{\mathcal{I}_t}$ 为输入，得到了 $t + 1$ 时刻的行动 $u_{t+1}=(p_{t+1},R_{t+1})$ 。执行完 $u_{t+1}$ 后，即可得到 $t + 1$ 时刻的交互信息 $\mathcal{I}_{t+1}\gets \mathcal{I}_{t+1}\cup\{I_{t+1}\}$ 。这个过程迭代执行，直到交互时间结束或者AIP模块觉得交互可以结束，迭代结束。假设迭代结束在 $T$ 时刻，则最终的热图 $A_{\mathcal{I}}=A_{\mathcal{I}_t}$ 。
在这里插入图片描述

输入解码器

如下图所示，清晰地展示了每个模块的输入是什么。本文中，使用了PointNet++分割网络将输入的点云 $O\in\mathbb{R}^{N×3}$ 编码成特征图 $f_O\in\mathbb{R}^{N×128}$ ，记 $p\in O$ 点的特征为 $f_{p|O}\in\mathbb{R}^{N×128}$ 。使用MLP将其他输入向量均编译为128维，记为 $f_a\in\mathbb{R}^{128}$ 。然后将 $f_{p|O}$ 和 $f_a$ 结合起来构成 $f_I\in\mathbb{R}^{256}$ 。不同的编码器之间不共享权重。
在这里插入图片描述

AAP

AAP的主要作用是以 $\mathcal{I}$ 为输入，得到 $A_{\mathcal{I}}$ 。如上图所示，AAP主要由 $\mathcal{E}_{AAP}$ 、 $\mathcal{C}_{AAP}$ 和 $\mathcal{D}_{AAP}$ 构成。
$\mathcal{E}_{AAP}$ 主要通过输入 $\mathcal{I}$ ，使用之前提到的编码器(MLP)，将其转化为128维的向量，再使用一个MLP得到隐藏信息 $z_{\mathcal{I}}$ （简记为 $z$ ）。由于 $\mathcal{I}$ 由多个 $I$ 构成，所以额外使用一个MLP来预测不同 $I$ 的权重，最终的 $z_{\mathcal{I}}$ 可以表示为 $z_{\mathcal{I}}\gets (\sum_iz_{I_i}×w_{I_i})/(\sum_i w_{I_i})$ 。
$\mathcal{C}_{AAP}$ 的输入为 $u = (p, R)$ 和 $z$ ，得到 $s_{u|z}^{AAP\in [0,1]}$ ，即该操作完成任务的可能性。
$\mathcal{D}_{AAP}$ 的输入为 $O$ 和 $p$ ，得到 $a_{p|z}^{AAP\in [0,1]}$ ，即 $p$ 点是有效的可交互点的可能性。
这边有个疑问：既然 $\mathcal{C}_{AAP}$ 处理的的 $u$ 中包含了 $p$ ，为什么还需要一个 $\mathcal{D}_{AAP}$ 。

AIP

AIP主要由 $\mathcal{C}_{AIP}$ 和 $\mathcal{D}_{AIP}$ 构成。
$\mathcal{C}_{AIP}$ 的输入为 ${O,p,R,s_{u|z}^{AAP},z\}$ ，得到 $s_{u|z}^{AIP}$ ，即 $u$ 操作能发掘多少有效的未知信息。
$\mathcal{D}_{AIP}$ 的输入为 ${O,p,R,a_{p|z}^{AAP},z\}$ ，得到 $a_{p|z}^{AIP}$ ，即 $p$ 点能发掘多少有效的未知信息。
AIP的运行流程是：首先由APP得到 $z$ ，然后通过 $\mathcal{D}_{AIP}$ 得到最具潜力的探索点 $p$ ( $a_{p|z}^{AIP}$ 得分最高的点)，然后就该点随机采样100种操作 $\{u_1, u_2,\cdots,u_{100}\}$ ，然后选择 $s_{u|z}^{AAP}$ 分数最高的 $u$ ，执行该操作。
当时间到了，或者AIP认为没有什么有潜力的探索时，结束交互。

训练及损失

$\mathcal{C}_{AAP}$ 的训练使用交叉熵函数：
$\mathcal{L}_{\mathcal{C}}^{AAP}=-\frac{1}{B}\sum_i ri\log(s_{u_i|z}^{AAP})+(1-r_i)\log(1-s_{u_i|z}^{AAP})$
其中，如果 $m_i>\tau$ ，则 $r_i=1$ ，否则 $r_i=0$ 。简单说来，就是当 $m_i$ 比较大的时候，也就是说操作 $u_i$ 带来了比较好的结果，比如说把抽屉拉了比较远，或者柜子开的比较大，那么 $u_i$ 对应的 $s_{u_i|z}^{AAP}$ 的值也应该越大，表示该操作更有可能完成预设的任务。

$\mathcal{D}_{AAP}$ 的训练采用 $\mathcal{L_1}$ 损失， $a_{p|z}^{AAP}$ 真值通过下面的方式获得：首先针对 $p$ 点，使用Where2Act随机产生100个操作 $u$ ，然后使用 $\mathcal{C}_{AAP}$ （应该是已经训练好的）来产生 $s_{u|z}^{AAP}$ ，然后使用五个最高得分的 $s_{u|z}^{AAP}$ 的均值作为 $a_{p|z}^{AAP}$ 的真值。

$\mathcal{C}_{AIP}$ 的训练采用 $\mathcal{L_1}$ 损失， $s_{u|z}^{AIP}$ 真值通过下面的方式获得：给定一些列的交互 $\mathcal{I}_{\mathcal{T}}=\{I_1, I_2, \cdots\}$ ，选取其的两个子集 $\mathcal{I}_{i-1}=\{I_1,I_2,\cdots,I_{i-1}\}$ 和 $\mathcal{I}_{i}=\{I_1,I_2,\cdots,I_{i}\}$ ，通过 $\mathcal{E}_{AAP}$ 得到其对应的特征 $z_{\mathcal{I}_{i}}$ 和 $z_{\mathcal{I}_{i-1}}$ 。然后将 $z_{\mathcal{I}_{i}}$ 和 $z_{\mathcal{I}_{i-1}}$ 分别输入到 $\mathcal{C}_{AAP}$ 中，并且计算两者的差，作为 $s_{u_1|z_{\mathcal{I}_{i-1}}}^{AIP}$ 的真值 $gt_{u_i|z_{\mathcal{I}_{i-1}}}^{AIP}$ ，也就说多进行了一步 $u_i$ ，可以给 $\mathcal{C}_{AAP}$ 带来多大的变化。也就是鼓励发掘给 $\mathcal{C}_{AAP}$ 带来更多变化的操作 $u_i$ 。

$\mathcal{D}_{AIP}$ 的训练采用另一种 $\mathcal{L_1}$ 损失，和 $\mathcal{D}_{AAP}$ 的训练类似， $a_{p|z}^{AIP}$ 真值通过下面的方式获得：首先针对 $p$ 点，使用Where2Act随机产生100个操作 $u$ ，然后使用 $\mathcal{C}_{AIP}$ （应该是已经训练好的）来产生 $s_{u|z}^{AIP}$ ，然后使用五个最高得分的 $s_{u|z}^{AIP}$ 的均值作为 $a_{p|z}^{AIP}$ 的真值。

训练过程采取迭代训练的方式，首先用随机生成的交互训练AAP，然后训练AIP生成更加有效和高效的操作 $u$ 。然后使用训练好的AIP来微调AAP。训练交换训练过程直到两个模块趋同。

实验结果展示

在这里插入图片描述

爱嘤嘤的小猪仔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AdaAffoord论文笔记

应用背景：通过增加少量的机器臂和物体的快速交换，使得家庭辅助机器人知道如何正确打开关闭抽屉、柜子、开关等。现有问题：现有的方法没有发掘隐藏的运动学细节，如下图所示，当没有明确的门把手信息时，现有的方法会将可能的开启位置均匀化（图中（b）列的第一行所示，柜子的边缘的一周都标上差不多颜色，表示都有可能是开启的位置），但这个样子无法满足家庭辅助机器人的要求。主要方法和创新点：通过在测试时加入少量机械臂和物体的交互，使得机器人可以准确地感知正确的抓取位置和施力方向。记物体为O∈RN×3O\in \ma
复制链接

扫一扫