这篇论文个人认为很重要,目前机器人领域的chatgpt时刻还没到来,很大原因就是没有统一的系统物理执行机构和数据集。今天来介绍下这篇论文。
RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots
这是一篇来自UT Austin、NVIDIA的合作研究论文,发表在arXiv上。这篇论文提出了RoboCasa,一个用于训练通用家务机器人的大规模仿真框架。
论文要点
这篇论文的核心贡献包括:
- 开发了一个包含120个真实场景、数千个交互对象和家具电器的仿真环境,利用生成式AI工具生成了环境纹理和3D对象。
- 引入了100个系统化评估任务,包括25个原子任务和75个由大语言模型引导生成的复合任务。
- 提供了一个包含10万+轨迹的大规模多任务数据集用于模型训练,展示了用合成数据做行为克隆训练的性能提升,以及仿真数据在真实世界任务中的应用价值。
其创新点主要在于利用生成式AI工具扩充仿真环境的多样性,用大语言模型引导生成任务,并提供了目前最大规模的机器人操作数据集。
仿真环境
RoboCasa基于RoboSuite进行开发,提供了包括120个厨房场景、数千个高质量3D物体模型(涵盖153+类别)的仿真环境。利用Midjourney等工具生成了环境纹理,用Luma.AI等生成3D物体模型,极大丰富了仿真环境的多样性。具体包括:
-
10种厨房布局,从基本的单墙式到豪华的G型带岛台,涵盖了主流家居厨房设计(如下图)。每种布局可以配置12种装修风格。
-
模拟了灶台、微波炉、水槽等可交互家电。家电可以打开关闭,状态可以发生变化(如打开炉灶会加热)。
-
提供2500+高质量3D物体模型,涵盖蔬菜、禽肉、饮料等150+类别。
任务设计
论文设计了100个系统化评估任务,包括:
- 25个原子任务:对应机器人操作的8个基本技能,如抓取放置、开关柜门、转动旋钮等。
- 75个复合任务:由GPT-4、Gemini等大语言模型引导生成,涵盖20个高层厨房活动如烹饪、清洗、整理等。每个活动有多个对应的具体任务。
数据集与实验
论文提供了一个超过10万轨迹的机器人操作数据集,主要通过人类示教和自动化轨迹生成方法(如MimicGen)得到。在原子任务上,随着合成数据量的增加(最高3000条/任务),模型性能显著提升,从人类示教的28.8%提升到47.6%。但在复合任务上,即使在原子任务上预训练再迁移学习,性能仍然较低。
在真实世界任务中,利用仿真数据与真实数据联合训练,可以将性能从13.6%提高到24.4%,体现了仿真到真实的迁移价值。
代码示例
论文暂未开源代码,但可以参考一些关键实现:
生成式AI生成物体模型:
# Using Luma.AI to generate 3D object from text prompt
object_prompt = "a red apple"
apple_model = lumaai.generate_3d_model(object_prompt)
大语言模型生成任务:
activity_prompt = "Can you give me 30 simple everyday high-level kitchen activities?"
activities = chatgpt.generate(activity_prompt)
task_prompt = f"""
Your goal is to come up with unique tasks that a robot can complete that fall under {activity}.
Available objects and skills:
- Objects: apple, plate, mug, ...
- Fixtures: cabinet, microwave, ...
- Skills: Pick_up, Place, Open, Close, ...
Example tasks:
1. Goal: Prepare coffee by placing a mug in the machine and pressing the start button.
Objects: mug
Fixtures: coffee machine
Skills: Pick_up(mug), Place(mug, coffee machine), Press(coffee machine start button)
"""
tasks = chatgpt.generate(task_prompt)
结论
RoboCasa是一个非常有潜力的大规模机器人仿真平台,利用了最新的生成式AI工具来极大扩充环境和任务的多样性,并提供了目前最大规模的机器人操作数据集。它为加速通用家务机器人的研发提供了基础设施。
未来还有几个有趣的方向值得探索:
- 提高复合任务的学习表现,可以探索更强的策略架构和算法。
- 进一步利用大语言模型自动生成场景和任务的代码实现,减少人工参与。
- 扩展到厨房以外的家居环境和任务。
- 将仿真数据与其他真实机器人数据集、互联网视频等结合,训练更强大的机器人基础模型。
参考资料
- 论文:https://arxiv.org/abs/2406.02523
- 项目主页:https://robocasa.ai/
- RoboSuite:https://robosuite.ai/
- MimicGen:https://mimic-gen.github.io/