英伟达最新论文介绍：RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

最新推荐文章于 2025-05-03 09:07:35 发布

jiayoushijie-泽宣

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量1.6k

点赞数 37

文章标签：人工智能算法

本文链接：https://blog.csdn.net/jiayoushijie/article/details/139638261

版权

这篇论文个人认为很重要，目前机器人领域的chatgpt时刻还没到来，很大原因就是没有统一的系统物理执行机构和数据集。今天来介绍下这篇论文。

RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

这是一篇来自UT Austin、NVIDIA的合作研究论文，发表在arXiv上。这篇论文提出了RoboCasa，一个用于训练通用家务机器人的大规模仿真框架。

论文要点

这篇论文的核心贡献包括：

开发了一个包含120个真实场景、数千个交互对象和家具电器的仿真环境，利用生成式AI工具生成了环境纹理和3D对象。
引入了100个系统化评估任务，包括25个原子任务和75个由大语言模型引导生成的复合任务。
提供了一个包含10万+轨迹的大规模多任务数据集用于模型训练，展示了用合成数据做行为克隆训练的性能提升，以及仿真数据在真实世界任务中的应用价值。

其创新点主要在于利用生成式AI工具扩充仿真环境的多样性，用大语言模型引导生成任务，并提供了目前最大规模的机器人操作数据集。

仿真环境

RoboCasa基于RoboSuite进行开发，提供了包括120个厨房场景、数千个高质量3D物体模型（涵盖153+类别）的仿真环境。利用Midjourney等工具生成了环境纹理，用Luma.AI等生成3D物体模型，极大丰富了仿真环境的多样性。具体包括：

10种厨房布局，从基本的单墙式到豪华的G型带岛台，涵盖了主流家居厨房设计（如下图）。每种布局可以配置12种装修风格。
模拟了灶台、微波炉、水槽等可交互家电。家电可以打开关闭，状态可以发生变化（如打开炉灶会加热）。
提供2500+高质量3D物体模型，涵盖蔬菜、禽肉、饮料等150+类别。

任务设计

论文设计了100个系统化评估任务，包括：

25个原子任务：对应机器人操作的8个基本技能，如抓取放置、开关柜门、转动旋钮等。
75个复合任务：由GPT-4、Gemini等大语言模型引导生成，涵盖20个高层厨房活动如烹饪、清洗、整理等。每个活动有多个对应的具体任务。

数据集与实验

论文提供了一个超过10万轨迹的机器人操作数据集，主要通过人类示教和自动化轨迹生成方法（如MimicGen）得到。在原子任务上，随着合成数据量的增加（最高3000条/任务），模型性能显著提升，从人类示教的28.8%提升到47.6%。但在复合任务上，即使在原子任务上预训练再迁移学习，性能仍然较低。

在真实世界任务中，利用仿真数据与真实数据联合训练，可以将性能从13.6%提高到24.4%，体现了仿真到真实的迁移价值。

代码示例

论文暂未开源代码，但可以参考一些关键实现：

生成式AI生成物体模型：

# Using Luma.AI to generate 3D object from text prompt
object_prompt = "a red apple"
apple_model = lumaai.generate_3d_model(object_prompt)

大语言模型生成任务：

activity_prompt = "Can you give me 30 simple everyday high-level kitchen activities?"
activities = chatgpt.generate(activity_prompt)

task_prompt = f"""
Your goal is to come up with unique tasks that a robot can complete that fall under {activity}.

Available objects and skills:
- Objects: apple, plate, mug, ...  
- Fixtures: cabinet, microwave, ... 
- Skills: Pick_up, Place, Open, Close, ...

Example tasks:
1. Goal: Prepare coffee by placing a mug in the machine and pressing the start button.
   Objects: mug
   Fixtures: coffee machine 
   Skills: Pick_up(mug), Place(mug, coffee machine), Press(coffee machine start button)
"""

tasks = chatgpt.generate(task_prompt)