VAT-MART

最新推荐文章于 2024-10-02 19:15:37 发布

爱嘤嘤的小猪仔

最新推荐文章于 2024-10-02 19:15:37 发布

阅读量260

点赞数

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/weixin_43199832/article/details/123815314

版权

论文链接：https://arxiv.org/pdf/2106.14440.pdf

主要目的

使机器人更好地感知和操控3D铰接物体，如柜子、门等

主要思路

如下图所示，给定一个输入物体后，框选出互动的具体范围，再依次选择最合适的交互点和操作轨迹。
在这里插入图片描述

具体流程

给定物体 $O$ 和它的铰链部分 $\mathscr{P}=\{P_1,P_2,\cdots\}$ ，交互类型为 $T$ ，操作任务为 $\theta$ ，我们训练了一个感知系统，会对 $\mathscr{P}$ 上的每一个点 $p$ 进行稠密估计，得到 $p$ 点的可操作性评分 ${a_{p|O,T,\theta}\in[0,1]}$ ，用来表示在 $p$ 找到一个 $T$ 类的运动轨迹完成任务 $\theta$ 的概率。运动轨迹的集合定义为 $\mathbb{P}_p(|O,T,\theta)$ 。从而，我们可以采样不同的轨迹 $\tau_{p|O,T,\theta}$ 以及其对应的成功完成任务可能性 $r_{\tau|O,p,T,\theta}\in[0,1]$ 。

输入

将物体 $O$ 以点云的形式 $S_O$ 输入。考虑两种典型的交互方式：推和拉。仅仅考虑一自由度的关节，从而任务 $\theta\in\mathbb{R}$ 。针对棱柱形关节，如抽屉，使用长度来衡量任务 $\theta$ （柜子被推进去或者拉出来多少）， $\theta\in[-1,1]$ ；针对旋转关节，比如冰箱门，使用弧度来衡量任务 $\theta$ （冰箱门被打开或者合上了多少）， $\theta\in[-\pi,\pi]$ 。

输出

$p$ 点的可操作性评分 $a_{p|O,T,\theta}$ （衡量点的潜力）以及其每条轨迹的成功可能性得分 $r_{\tau|O,p,T,\theta}$ （衡量轨迹的好坏）的取值都在 $[0, 1]$ 之间。越高的得分意味着更高的可能性。 $\tau_{p|O,T,\theta}$ 由一些列6自由度的位置点构成。

网络结构

VAT-MART系统，如下图所示，包括两个部分：一个探索不同行动轨迹的RL策略和一个学习所提出的可操作视觉先验的感知系统。RL策略收集交互轨迹来监督感知网络，而感知系统提供了好奇心反馈，以鼓励RL策略进一步探索不同的解决方案。在我们的实现中，我们首先对RL策略进行预训练，然后用RL收集的数据训练感知网络，最后开启好奇心反馈，对两部分进行微调。
在这里插入图片描述

RL模块

RL使用TD3网络来生成可能的轨迹，来监督感知模块（perception）的学习。在测试模块，只使用感知模块。

任务初始化

首先对待交互的物体形状进行随机采样，使选到不同形状物体的概率相同。对于任务 $\theta$ ，选择为[10°,70°]或者[0.1,0.7]。设定初始状态 $\theta_0$ ，保证任务 $\theta$ 可以被完成。

状态空间

一自由度位姿变化 $\Delta\theta_i=\theta_i-\theta_0$ ，初始状态机械臂夹子的位姿 $wp_0=(x_0,R_0)\in SE(3)$ ，当前状态机械臂夹子的位姿 $wp_i=(x_i,R_i)\in SE(3)$ 。夹子的局部位置 $x_f\in\mathbb{R}^2$ ，当前互动点的位置 $p_i\in\mathbb{R}^3$ ，铰链关节轴的法向方向 $n_j\in\mathbb{R}^3$ ，铰链关节的位置 $x_j\in\mathbb{R}^3$ （定义为铰链关节轴上最靠近互动点 $p$ 的点） $p$ 点到铰链关节轴的最短距离定义为 $d_{cj}\in\mathbb{R}$ ， $x_j$ 到 $p$ 的方向向量定义为 $n_{cj}\in\mathbb{R}^3$ 。将这些信息结合成一个33维的向量送入到RL中。

行动空间

在每个时间步长，我们预测夹子姿态变化 $wp_i−wp_{i-1}\in SE(3)$ ，以确定下一步路径点 $wp_i$ ，并且作为RL网络的动作输出。我们估计了一个中心偏移量 $x_i−x_{i−1}\in\mathbb{R}^3$ 和一个欧拉角差 $R_i−R_{i−1}\in SO(3)$ 。

回报设计

这里主要介绍任务回报，好奇心回报在后续介绍。
1）任务完成，给予500的回报值。
2）奖励向任务完成靠近的步骤，即 $|\theta-\Delta\theta_{i-1}|-|\theta-\Delta\theta_{i}|>0$ 的步骤，给300的回报值。
3）当夹子尖和互动点 $p$ 距离 $d_{gc}$ 较远时，给予惩罚 $100\cdot1[d_{gc}>0.1]+50d_{gc}$ 。（当$d_{gc}>0.1时， $1[d_{gc}>0.1]=1$ ，否则为0）。

结束依据

任务完成或者运行了五个步骤。

感知模块

感知模块以RL模块收集的轨迹为输入，输出 $p$ 点的可操作性评分 ${a_{p|O,T,\theta}\in[0,1]}$ 、运动轨迹的集合 $\mathbb{P}_p(|O,T,\theta)$ 以及每条轨迹对应的成功完成任务的可能性 $r_{\tau|O,p,T,\theta}\in[0,1]$ 。

输入编码器

使用PointNet++得到物体的点云 $S_O$ ，每一个点的特征 $f_s$ 是一个128维的向量。使用三个MLP分别将交互点 $p$ 、轨迹 $\tau$ 以及任务 $\theta$ 转换为 $f_p\in\mathbb{R}^{32},f_\tau\in\mathbb{R}^{128},f_\theta\in\mathbb{R}^{32}$ 。在将所有路径点信息扁平化后，我们将每个轨迹序列转化为一个30维向量。

Actionability Prediction Module

用来输出可操作性评分 ${a_{p|O,T,\theta }\in[0,1]}$ ，输入点云 $S_O$ ，输出可操作性评分组成的图 $A_{O,T,\theta}$ 。

Trajectory Proposal Module

该模块通过一个条件自动编码器(cVAE)构成，包含了一个轨迹编码器：用来将输入轨迹 $E_\tau$ 变成高斯噪声 $z$ ，一个轨迹解码 $D_\tau$ ：用来从噪声重构输入轨迹。将得到的噪声向量正则化以接近均匀高斯分布。这样当输入随机高斯噪声时，可以得到不同的轨迹提议。

Trajectory Scoring Module

用来输出轨迹的成功率 $r_{\tau|O,p,T,\theta}\in[0,1]$ 。

训练数据集

使用RL收集的成轨迹作为正样本，在成功轨迹上加随机量作为负样本，来训练感知模块。

训练

Trajectory Scoring Module（轨迹得分） $D_s$ 模块使用交叉熵函数训练。
cVAE的训练，除了正则化高斯瓶颈噪声的KL散度损失外，我们使用L1损失来回归轨迹路径点位置，使用6d旋转损失来训练路径点朝向。
Actionability Prediction Module模块的训练，用 $D_\tau$ 随机生成100个轨迹，使用 $D_s$ 来生成轨迹成功率，使用得分最高的五个轨迹成功率的均值作为真值，损失函数使用 $L_1$ 损失。