英伟达最新论文介绍:RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

这篇论文个人认为很重要,目前机器人领域的chatgpt时刻还没到来,很大原因就是没有统一的系统物理执行机构和数据集。今天来介绍下这篇论文。

RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

这是一篇来自UT Austin、NVIDIA的合作研究论文,发表在arXiv上。这篇论文提出了RoboCasa,一个用于训练通用家务机器人的大规模仿真框架。

论文要点

这篇论文的核心贡献包括:

  1. 开发了一个包含120个真实场景、数千个交互对象和家具电器的仿真环境,利用生成式AI工具生成了环境纹理和3D对象。
  2. 引入了100个系统化评估任务,包括25个原子任务和75个由大语言模型引导生成的复合任务。
  3. 提供了一个包含10万+轨迹的大规模多任务数据集用于模型训练,展示了用合成数据做行为克隆训练的性能提升,以及仿真数据在真实世界任务中的应用价值。

其创新点主要在于利用生成式AI工具扩充仿真环境的多样性,用大语言模型引导生成任务,并提供了目前最大规模的机器人操作数据集。

仿真环境

RoboCasa基于RoboSuite进行开发,提供了包括120个厨房场景、数千个高质量3D物体模型(涵盖153+类别)的仿真环境。利用Midjourney等工具生成了环境纹理,用Luma.AI等生成3D物体模型,极大丰富了仿真环境的多样性。具体包括:

  1. 10种厨房布局,从基本的单墙式到豪华的G型带岛台,涵盖了主流家居厨房设计(如下图)。每种布局可以配置12种装修风格。
    在这里插入图片描述

  2. 模拟了灶台、微波炉、水槽等可交互家电。家电可以打开关闭,状态可以发生变化(如打开炉灶会加热)。
    在这里插入图片描述

  3. 提供2500+高质量3D物体模型,涵盖蔬菜、禽肉、饮料等150+类别。
    在这里插入图片描述

任务设计

论文设计了100个系统化评估任务,包括:

  • 25个原子任务:对应机器人操作的8个基本技能,如抓取放置、开关柜门、转动旋钮等。
  • 75个复合任务:由GPT-4、Gemini等大语言模型引导生成,涵盖20个高层厨房活动如烹饪、清洗、整理等。每个活动有多个对应的具体任务。
    在这里插入图片描述

数据集与实验

论文提供了一个超过10万轨迹的机器人操作数据集,主要通过人类示教和自动化轨迹生成方法(如MimicGen)得到。在原子任务上,随着合成数据量的增加(最高3000条/任务),模型性能显著提升,从人类示教的28.8%提升到47.6%。但在复合任务上,即使在原子任务上预训练再迁移学习,性能仍然较低。

在真实世界任务中,利用仿真数据与真实数据联合训练,可以将性能从13.6%提高到24.4%,体现了仿真到真实的迁移价值。

代码示例

论文暂未开源代码,但可以参考一些关键实现:

生成式AI生成物体模型:

# Using Luma.AI to generate 3D object from text prompt
object_prompt = "a red apple"
apple_model = lumaai.generate_3d_model(object_prompt)

大语言模型生成任务:

activity_prompt = "Can you give me 30 simple everyday high-level kitchen activities?"
activities = chatgpt.generate(activity_prompt)

task_prompt = f"""
Your goal is to come up with unique tasks that a robot can complete that fall under {activity}.

Available objects and skills:
- Objects: apple, plate, mug, ...  
- Fixtures: cabinet, microwave, ... 
- Skills: Pick_up, Place, Open, Close, ...

Example tasks:
1. Goal: Prepare coffee by placing a mug in the machine and pressing the start button.
   Objects: mug
   Fixtures: coffee machine 
   Skills: Pick_up(mug), Place(mug, coffee machine), Press(coffee machine start button)
"""

tasks = chatgpt.generate(task_prompt)

结论

RoboCasa是一个非常有潜力的大规模机器人仿真平台,利用了最新的生成式AI工具来极大扩充环境和任务的多样性,并提供了目前最大规模的机器人操作数据集。它为加速通用家务机器人的研发提供了基础设施。

未来还有几个有趣的方向值得探索:

  1. 提高复合任务的学习表现,可以探索更强的策略架构和算法。
  2. 进一步利用大语言模型自动生成场景和任务的代码实现,减少人工参与。
  3. 扩展到厨房以外的家居环境和任务。
  4. 将仿真数据与其他真实机器人数据集、互联网视频等结合,训练更强大的机器人基础模型。

参考资料

  • 论文:https://arxiv.org/abs/2406.02523
  • 项目主页:https://robocasa.ai/
  • RoboSuite:https://robosuite.ai/
  • MimicGen:https://mimic-gen.github.io/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值