Octo: An Open-Source Generalist Robot Policy

最新推荐文章于 2024-09-17 16:52:57 发布

Ming_Chens

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量828

点赞数 15

分类专栏：具身智能文章文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/s_m_c/article/details/141226600

版权

具身智能文章专栏收录该内容

33 篇文章 1 订阅

订阅专栏

发表时间：26 May 2024

作者单位：UC Berkeley

Motivation：在不同的机器人数据集上预先训练的大型策略有可能转换机器人学习:这种具备多种能力的机器人策略不是从头开始训练新的策略，而是可以用很少的域内数据进行微调，但广泛推广。然而，为了广泛应用于一系列机器人学习场景、环境和任务，这样的策略需要处理不同的传感器和动作空间，适应各种常用的机器人平台，并轻松高效地微调到新领域。

解决方法：在这项工作中，我们的目标是为开发开源、广泛适用、通用的机器人操作策略奠定基础。Octo作为一种通用策略初始化，可以有效地微调到新的观察和行动空间（和不同的机器人）。

实现方式：我们设计了一个预训练多种能力的机器人策略的系统，更适合下游机器人应用中的多样性。我们模型的核心是一个transformer架构，它将任意输入token（从观察和任务创建）映射到输出token（然后解码为动作）（没用大模型），可以在机器人和任务的不同数据集上进行训练。在没有额外训练的情况下，该策略可以接受不同的相机配置（例如，工作空间或手腕相机），可以控制不同的机器人，并且可以通过语言命令或目标图像来指导（可以设置文本goal或者图像goal作为目标）——所有这些都通过简单地更改哪些标记被输入到模型中。更重要的是，该模型可以通过添加适当的adapter（实际上全文都没有添加adapter）和使用小型目标域数据集（few-shot？ 100个演示）和可访问的计算预算（一块4090）进行微调来适应具有新感官输入、动作空间或形态的新机器人设置（尝试了好几种机器人，有钱）。

模型结构：Octo is a transformer-based policy π. It consists of three key parts:

视觉和文本编码器：视觉是resnet，文本是t5-base (111M) model。 This results in 256 tokens for the 3rd person camera images and 64 tokens for the wrist camera images（对第三视角相机和obsveration图像的不同处理）.
a transformer backbone（vit-small和vit-base）
diffusion action head ：The diffusion action head consists of a 3-layer MLP with a hidden dimension of 256, residual connections, and layer normalization 和 standard DDPM objective.

Training data：a variety of tasks from several robot embodiments and scenes.

Training objective：a conditional diffusion decoding head to predict continuous, multi-modal action distributions。重要的是，每个动作预测只执行transformer主干的一次前向传递，之后多步去噪过程完全在小扩散头内进行。

实验：我们还评估Octo，以便对新的环境和任务进行数据高效的微调，包括新的观察结果(“Berkeley Insertion”中的力-扭矩输入)、新的动作空间(“Berkeley Pick-Up”中的关节位置控制)和新机器人实施例(“Berkeley Coke”和“Berkeley Bimanual”)。

重要实验结论：

93M的 Octo竟然和55B 的 RT-2性能相似。
这表明将数据混合扩展到更多数据集可能会进一步提高策略性能。我们将把它留给未来的工作，以及对数据管理最佳实践进行更彻底的调查。
对于微调，我们发现从头开始训练我们的大型 Transformer 架构在小数据集上很快就会过拟合。重要的是，我们发现基于 ResNet 的架构在小数据集上训练时比 ViT 表现更好，例如，在我们的“从头开始”比较中，强调大型 Transformer 策略非常适合跨不同数据集的可扩展训练。
在表 II 中，我们发现 Octo 的扩散训练目标可以显着提高性能。这种改进可能是因为扩散头可以在保持连续动作精度的同时对多模态动作分布（与 MSE 头不同）进行建模。定性地说，该策略比 MSE 训练策略更具决定性作用，并且比使用离散动作训练的策略更精确。
较大的模型具有更好的视觉场景感知，vitbase比vit-small效果好

结论：Expanding the data used to train Octo is a natural avenue of improvement.由于 Open X-Embodiment 数据集由最优机器人演示组成，因此当前模型通过模仿进行训练；未来的工作可能会考虑从需要替代目标的次优或在线交互数据中学习。尽管我们只在单臂和双臂机械手上训练和评估Octo; 扩展到更广泛的执行导航或移动操作的机器人将是高机会的方向。仍有改进模型的工作，包括更好的语言条件反射，改善手腕摄像头的支持，并将数据纳入最佳演示之外。