Open X-Embodiment: Robotic Learning Datasets and RT-X Models
启发:在不同数据集上训练大规模、高容量模型以处理下游应用方面取得显著成功。是否能将所有数据整合在高容量机器人操作模型上使其有效适应新的机器人、任务、环境?
贡献:提供了标准化数据格式和模型的数据集,收集了来自22个不同机器人的数据集,展示了527项技能(160266项任务),在该数据上训练了高容量模型RT-X,利用其他平台的经验提高多个机器人的能力。
介绍
- 通常在大型和多样化的数据集上训练的大规模通用模型往往能够超过在较小但更多任务特定的数据上训练的狭义通用模型。
- 通用策略很难应用于机器人领域:机器人操作是物理交互、图像、语言等复杂领域的融合;交互数据收集由于硬件成本和采集效率低下难以构建超大型数据集;过去,由于各个数据集的环境、任务设置、机器人类别的不同,没有提出有效的数据联合方法弥补单个数据集过于狭隘的缺陷,本文的主要贡献就在于提出了相关的解决方案。
相关工作
- 跨实体转移:共享动作表示;融合表示学习目标;在具身信息上调整学习到的策略;解耦机器人和环境表示;从人类视频数据中学习可迁移的奖励函数、目标、动力学模型或视觉表示。本文没有针对域迁移的相关机制。
- 大型机器人学习数据集:将大量先验数据集处理和聚合成一个单一、标准化的存储库,以一种有意义和有用的方式共享机器人学习数据集。
- 语言条件机器人学习:使用大规模的多具身示范数据,通过模仿学习来训练语言条件政策,在预训练语言嵌入和预训练视觉语言模型的工作基础上进行了研究。参考RT1和RT2。
RT-X
数据集概述
模型设计
数据格式合并
不同机器人的观察空间和动作空间存在显著差异。将输入图像简单调整到共同的分辨率,将原始动作集转换为7Dof末端执行器动作并执行归一化和离散化,在执行策略时,根据具体设置去标准化。
控制策略架构
本文考虑了两个模型架构:RT-1和RT-2,两种架构都以256个bins构成的7维动作空间构成(6-Dof和夹爪状态)作为输出,将预测输出根据数据集实际设置去标准化后进行训练,若某维度没有被利用则置为0。具体架构和训练过程参考原文。
实验结果
协同训练是否可以提高训练任务的性能?
对于小数据集,期望显著提升性能;对于大数据集,期望提升挑战性任务执行性能。
评估基准:原作者利用原始数据集在原始模型上训练;在原始数据集上训练RT-1模型。
在小数据集上,RT-1-X均高于RT-1,说明联合训练有助于提升性能。
对于大规模数据集,RT-1-X发生欠拟合,用更大模型容量的RT-2-X优于原始模型。
任务泛化能力有无增强?
- 对未知对象、背景、环境的泛化:RT-2和RT-2-X性能相差不大。
- 知识在机器人间传递:RT-2-X相比RT-2提高了3倍,协同任务训练提高了原已有大型数据集支撑的模型泛化能力,这种提升可能是在另一个数据集中训练相似任务带来的。
模型大小、架构、数据集组成等设计对结果的影响?
- 包含短历史图像显著增强了泛化性能;基于Web的模型预训练至关重要;更高的模型容量可以实现更高的迁移程度。