PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation-CSDN博客

本文链接：https://blog.csdn.net/s_m_c/article/details/141253300

Given a language instruction, PerAct [40] adopted a multi-task transformer model for 3D manipulation by predicting the next keyframe pose.

发表时间：CoRL 2022

论文链接：https://proceedings.mlr.press/v205/shridhar23a/shridhar23a.pdf

作者单位：University of Washington

Motivation：Transformers 彻底改变了视觉和自然语言处理，使其能够扩展到大型数据集。但是在机器人manipulation中，数据既有限又昂贵。manipulation仍然可以从具有正确问题形式的Transformers中受益吗？

解决方法：我们使用 PERACT 来研究这个问题，PERACT 是一种用于多任务 6-DoF 操作的语言条件行为克隆agent。PPACT 使用 Perceiver Transformer [1] 对语言目标和 RGB-D 体素观察进行编码，并通过“检测下一个最佳体素动作”输出离散化动作。与在二维图像上操作的框架不同，体素化的3D观察和动作空间为有效学习6自由度动作提供了强大的结构先验。

实现方式：在这项工作中，我们的目标是利用voxel patches 的 3D 结构，以实现与Transformer有效的6自由度行为克隆(类似于视觉转换器[4]如何利用图像patch的2D结构)。PERACT编码一系列RGB-D体素patch，并预测在观察-动作循环中使用运动规划器执行的离散化平移、旋转和抓取动作。

这种基于体素的形式提供了强大的结构先验，有几个好处：融合多视图观察的自然方法、学习稳健的以动作为中心的表示和启用 6-DoF 中的数据增强——所有这些都有助于通过关注多样化而不是狭窄的多任务数据来学习可泛化的技能。（这也是本文的方法具有few-shot能力的原因）

模型结构：Transformer-based [2] agent，CLIP's [76] language encoder，The Perceiver Transformer uses 6 self-attention layers。

模型输入：our input voxel observation is a 100*3 voxel grid with 10 channels: R100×100×100×10

10 个通道的组成：3 个 RGB 通道：这通常表示颜色信息。每个 RGB 通道包含一个颜色分量（红色、绿色、蓝色），总共三通道用于表示点的颜色。3 个点（point）通道：这可能指的是点云中的每个点的特征或属性。1 个占用（occupancy）通道：表示某个位置是否被占用或存在点云数据。3 个位置索引（position index）通道：这可能用于表示点在网格中的位置或索引信息。

模型输出：This output is upsampled with a 3D convolution layer and tri-linear upsampling to form a voxel feature grid with 64 channels。（详见原文第20页）

The voxels are split into 3D patches, and the language goal is encoded with a pre-trained language model. 尽管输入序列很长，Perceiver 使用一小组潜在向量对输入进行编码（有关说明，请参见附录图 6）。这些编码通过解码器被上采样回原始体素维度，并用线性层重塑以预测离散化的翻译、旋转、抓手打开和避免碰撞动作。该动作使用运动规划器执行，然后使用新的观察来预测观察动作循环中的下一个离散动作，直到终止。

Demonstrations：

We assume access to a dataset D = {ζ1, ζ2, . . . , ζn} of n expert demonstrations, each paired with English language goals G = {l1, l2, . . . , ln}.
Each demonstration ζ is a sequence of continuous actions A = {a1, a2, . . . , at} paired with observations O = { ̃o1, ̃o2, . . . ̃ot}.
An actiona consists of the 6-DoF pose, gripper open state, and whether the motion-planner used collision avoidance to reach an intermediate pose: a = {apose, aopen, acollide}.
We use four cameras for simulated experiments ̃osim = {ofront, oleft, oright, owrist}, but just a single camera for real-world experiments ̃oreal = {ofront}.（模拟环境的cameras的视角和现实环境不一样，模拟环境的视角更多。）

Keyframes and Voxelization：

我们提取一组关键帧动作 {k1, k2,., km} ⊂ A 用简单的启发式方法捕获动作序列中的瓶颈末端执行器姿势 [71]：如果 (1) 关节位置接近于零并且 (2) 夹具开放状态没有改变，则该动作是一个关键帧。然后，演示 ζ 中的每个数据点都可以转换为“预测下一个（最佳）关键帧动作”任务。

Training Details：

The agent was trained with a batch-size of 16 on 8 NVIDIA V100 GPUs for 16 days (600K iterations)

对于多任务训练，我们只需从数据集中的所有任务中采样输入-动作元组。（多任务训练各个任务的权重一样）

实验：模拟：18 RLBench tasks 真实：a Franka Panda，on 7 real-world tasks with a total of just 53 demonstrations。

实验结论：

demonstrations越多效果越好，但是C2FARM-BC的 demonstrations越多性能反而越差。对于许多任务，C2FARM-BC 在更多的演示下实际上表现更差，这可能是由于容量不足。由于额外的训练演示包括额外的任务变体来优化，因此它们最终可能会损害性能。
简单的任务few-demonstrations可以做，复杂的任务就做不了了。
对于三个任务：插入钉、堆叠杯和放置杯子，所有代理都实现了接近于零的成功。我们发现单任务agent能够实现非零性能，这表明更好的多任务优化方法可能会提高某些任务的性能。（任务之间的权重学习）。未来的PERACT工作可以用Auto-λ代替统一的任务加权，以获得更好的多任务性能。
我们发现更多的潜在向量通常会提高代理对更多任务进行建模的能力，但对于简单的短视距任务，更少的潜在就足够了。（任务越简单对the number of Perceiver latents 的需求越少）

消融实验总结：

(1) 跳跃连接有助于稍微更快地训练agent

(2) 感知器转换器对于实现全局接受域的良好性能至关重要

(3) 提取好的关键帧动作对于监督训练至关重要，因为随机选择的或固定的间隔关键帧导致零性能。

最后，数据增强中的旋转扰动通常有助于提高鲁棒性，主要是通过将代理暴露于更多的对象旋转变化。

结论：

预训练——微调的范式要比 元学习 的训练范式在新任务上的效果更好。
The Fourier features(傅里叶特征) led to substantially worse performance.
未来的工作可以试验在辅助任务上预训练解码器层的方法，并预训练特征以实现更快的训练。
同样不清楚 2048×512 的默认latent大小是否适用于学习具有这种极端旋转扰动的 6-DoF 策略。
使用 Adam [107] 优化器而不是 LAMB [78]，但这导致模拟和真实实验中的性能更差。
PPACT依赖于基于采样的运动规划器来执行离散化的动作。这使得PERACT处于随机规划器的mercy，以达到姿势。虽然这个问题在我们的实验中并没有引起任务的任何重大问题，但许多其他任务对到达姿势的路径很敏感。例如，将水倒入杯子将需要一条平滑的路径来适当地倾斜水容器。这在未来的工作中可以通过使用学习和采样的运动路径的组合来解决。未来工作对运动轨迹的优化，找到最优路径。
或者，PERACT 不仅可以预测一个动作，还可以扩展以预测一系列离散化的动作。在这里，基于 Transformer 的架构可能特别有利。此外，agent不仅可以预测姿势，还可以被训练来预测其他物理参数，如目标速度。
未来的工作可能包括来自先前时间步的观察，或附加感知器latent，或训练一个循环神经网络来编码跨时间步的潜在表示。
未来的工作可以在离散化的动作空间中预先计算不可达的姿势，并丢弃任何将动作推入不可达区域的增强扰动。