RoboMatrix：以技能为中心的机器人任务规划与执行框架

最新推荐文章于 2025-05-06 16:44:55 发布

自动驾驶之心

最新推荐文章于 2025-05-06 16:44:55 发布

阅读量808

点赞数

文章标签：机器人算法人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247646494&idx=3&sn=a70d3412364c86fb1ebda38e409be24d&chksm=cfe960dd1cc00af7bb40b2f6401528d8f307794588cb654be0069afd9cd12e6e58424ae0497e&scene=126&sessionid=0

版权

点击下方卡片，关注“具身智能之心”公众号

作者 | 具身智能之心编辑 | 具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

引言

The more things change, the more they stay the same.

机器人现有的策略学习方法主要采用以任务为中心的范式，必须端到端地收集任务数据。然而，基于该范式建立的策略在处理新任务时往往会失败，这是由于缺少新任务的演示数据。此外，对于具有多个阶段的复杂任务，该范式很难对机器人的执行错误进行定位，进而导致策略快速迭代的困难。为了应对上述挑战，来自早稻田大学、北京理工大学和旷视研究院的团队提出了RoboMatrix，一个以技能为中心的层级化框架，用于机器人可扩展的任务规划和执行。该框架首次引入了一种以技能为中心的全新范式，从开放世界里丰富的复杂任务中提取机器人可执行的元技能，该范式允许机器人从以技能为中心的具体化演示中学习元能力，通过将复杂任务规划成可执行的元技能序列来完成开放世界的丰富任务。RoboMatrix层级化框架可解耦为三个相互关联的层：高级模块化调度层、中级技能层、底层硬件层。实验结果表明，以技能为中心的范式在新对象、场景、任务和机器人中取得了显著的泛化性能。该框架为开放世界中机器人的任务规划和执行提供了一种新颖的解决方案。项目详情见主页：https://robo-matrix.github.io/

内容出自国内首个具身智能全栈学习社区：具身智能之心知识星球，这里包含所有你想要的。

介绍

当前基于视觉-语言-动作模型的机械臂操作策略主要遵循以任务为中心的范式，该范式将单个完整的复杂任务视为一种技能，要求机器人的演示数据是一次性收集的，这将导致机器人以端到端的方式学习复杂策略，高度依赖于完整的任务数据。该范式存在以下三个缺点：

数据收集效率低：许多复杂任务通常涉及多个阶段，单次演示往往需要很长时间。
对新任务的泛化能力差：该范式难以生成新的动作序列，因为新任务未包含在训练数据中。这限制了视觉-语言-动作模型在新任务和新环境中的可扩展性和适应性。
难以定位推理错误：由于端到端学习的黑盒特性，难以区分和定位错误出现的阶段。

为了解决以任务为中心的学习框架中的问题，我们引入一种全新的以技能为中心的范式，并提出一种层级化框架，称为RoboMatrix。我们从不同的复杂任务中提取共通的元技能，以构建与机器人相关的技能矩阵，这些元技能通过一个统一的视觉-语言-动作模型和多个混合模型进行学习。以该范式为基础，机器人可以通过在技能矩阵中进行动态路由来完成丰富的开放世界任务。

RoboMatrix中以技能为中心的方法提供了更强的可解释性，从而更容易识别和定位系统错误。当某个特定技能表现不佳时，我们的方法只需要有针对性地补充该技能的演示数据，无需像以任务为中心的范式一样，对复杂的任务进行完成的数据采集，可以实现性能表现的快速提升。通过技能的不同组合，RoboMatrix在开放世界场景中实现了更好的泛化能力。综上所述，我们的核心贡献可以总结为：

我们提出了一种以技能为中心的层级化框架，用于在开放世界场景中进行可扩展的机器人任务规划与任务执行。
我们提出了一种新颖的统一视觉-语言-动作模型，该模型能够实现机器人移动和操作动作的同步输出。
我们的框架在四个维度下展现出了极强的泛化能力：新物体、新场景、新任务和新机器人。

以技能为中心的范式

由于开放世界中的任务种类繁多，为每个独立的任务分别采集数据是不切实际的。每当一个新任务被设立时，采集特定任务的数据既费时又费力。面对开放世界中无尽的任务种类，我们自然而然地想到：能否从不同的任务中提取一些不变的元素？由于我们引出了元技能的概念。

具有不同模态的机器人可以执行不同的任务，而具有相同模态的机器人可以应用于多种场景。事实上，不同的任务往往共享一些共通的元技能，而这些元技能不仅适用于多种场景，而且其集合是有限且可枚举的，在图2中我们展示了构建以技能为中心的方法的流水线。我们从多样的机器人任务中提取出可共享的相似元素，将这些元素定义为元技能并存储在技能列表中，比如移动、操作和抓取。

为了获取元技能，我们通常根据特定技能对任务数据进行分段，然后将相似的技能分组并定义为元技能。例如，在移动方面，机器人能够移动到盒子、抽屉或其他物体，这些技能被整合成一个标记为“移动到物体”的单一元技能。

层级化框架

如图4所示，RoboMatrix以文本或音频的格式作为任务描述的输入，音频会通过语音转文本模块转换为文本格式。整个框架分为三个层级：

模块化调度层：系统的高级规划器，负责将复杂任务分解为有序的子任务序列，并根据机器人的技能列表将这些子任务依次添加到执行队列中。在执行子任务之前，执行检查器通过基于机器人的环境观察，确定待操作或抓取的物体是否出现在场景中，从而验证子任务是否可执行。
技能层：将子任务的描述映射为机器人动作，使用混合模型或视觉-语言-动作模型来完成此映射。动作包括一个停止信号，用以判断当前子任务是否完成。
硬件层：管理机器人的控制器和状态观测器，其中控制器将动作转化为控制信号，状态观测器则实时更新机器人的状态和图像。

模块化调度层

我们开发了一个基于生成式预训练Transformer的任务规划智能体，将复杂任务分解为子任务序列，并根据来自技能模型的观测和反馈来规划它们的执行，以确保整个任务序列的正确和高效的执行。如图3所示，该层级包含一个技能列表，存储了用于各种元技能的提示集合。智能体根据任务描述和元技能列表生成一系列可顺序执行的子任务。如果分解过程中产生了新技能，这些技能将经过人工精炼并添加到元技能列表中以供未来复用。

除此之外，我们开发了一个基于开放词汇物体检测器的执行检查器，确保每个子任务在当前条件下是可执行的，从而提高任务执行的整体效率和成功率。例如，考虑一个子任务：“移动到红色可乐罐”，执行检查器首先从中提取出对象名称：”红色可乐罐“，并将对象名称和机器人观测图像发送给Grounding DINO进行检验，若在图像中可以检测到该对象，技能层才会被激活，否则任务将被中断。

技能层

根据不同技能的特点，技能模型主要包括视觉-语言-动作模型和混合模型，前者主要用于处理移动操作任务，而混合模型则用于执行射击、搜索和攀爬等任务。

我们的视觉-语言-动作技能模型基于Decode-only的大语言模型（Vicuna 1.5），该模型是基于LLaMA 2训练的。使用CLIP-Large作为视觉编码器，其输入尺寸为336x336像素，通过两层线性层进行视觉嵌入投影。整个模型将图像和技能提示作为输入，并生成离散动作。为了保持大语言模型输出的更高稳定性，我们按照RT-2中提到的做法，将连续的动作投影到离散的区间中。通过对收集的多机器人数据进行全面的统计分析，我们将离散区间的最优数量设定为256。值得一提的是，我们为了避免破坏原始词汇表，我们添加了256个特殊词汇，而不是和RT-2一样将256个使用频率最低的词汇覆盖掉。我们的离散动作分为7个维度，每个维度包含256个区间，如下式所示：

其中，𝜖表示停止信号，用于判断单个技能操作是否完成；Δ𝑋,Δ𝑌,分别表示在现实世界地面平面上X-Y位置和旋转角度的变化；,分别表示机械臂末端执行器的位置；𝜙是夹爪的开合状态。

为了实现多模态对齐，我们使用了LLaVA 1.5中预训练的视觉嵌入投影。在机器人领域的对齐过程中，我们冻结了视觉编码器，同时打开了投影层和LLM。我们使用来自网页数据的多模态文本-图像数据和我们粗略采集的图像-动作数据进行联合微调。我们利用了来自技能数据库的约60K视觉-动作指令调优数据，这些数据是经过了精细标注的。在模型训练过程中，我们解冻了所有参数，包括视觉编码器。

硬件层

硬件层基于ROS2设计，是多机器人并行执行实时任务的基础，其去中心化的特性使得机器人能够在无需依赖主节点的情况下，在其自身模块内或多个机器人之间建立直接通信。通过这种通信特性，所有机器人连接到同一局域网，而技能VLA模型的推理任务则在基于云的服务器上执行。因此，机器人与服务器之间的通信机制类似于客户端-服务器模式，机器人充当客户端。具体来说，机器人需要通过特定协议将观察数据（例如图像）发送到云服务器，并请求相应的动作响应。此外，控制器采用类似于发布-订阅模型的机制，控制器通过将动作值转换为控制信号来管理机器人，并将这些信号直接映射到机器人模块，按照主题进行分配。

实现细节

我们使用大疆RoboMaster系列机器人作为RoboMatrix的物理平台。不同模态的机器人可以通过特定的网络通信协议连接到一台计算机上，从而允许RoboMatrix同时控制多个机器人。我们在ROS 2框架内重新组织了RoboMaster的开源API，以实现更灵活的分布式控制和更高效的技能模型调度。通过简单地更改控制信号源的映射，可以切换控制模式，从而实现通过Xbox控制器进行遥控操作和通过技能模型进行自主控制。

我们从大约5000个高质量人类演示的长程任务中提取了八个技能的数据，采用了基于规则和人工标注相结合的方法，并确保两者的适当比例。图5展示了我们VLA模型的八个元技能，每个技能可以独立执行，也可以组合执行以完成长程任务。我们确保每个技能在各个维度上都有足够的多样性和全面性，这些维度包括物体类别、外观、位置、机器人初始状态和场景复杂度。我们还对原始数据中的机器人状态观察噪声进行了过滤，确保数据在各维度上呈现均匀分布。此外，我们将这5000条演示整理成了完整的数据集，从完整数据集中，我们选取了涵盖5种不同技能的200条演示，创建了一个小型数据集。除非另有说明，所有消融实验默认在该小型数据集上进行。

我们对每个技能的停止帧应用数据增强，以确保停止信号输出的稳定性。这些停止帧被复制，以在整体技能数据中达到适当的比例。

我们使用了8个80GB内存的A100 GPU训练VLA技能模型，并采用了96的patch大小。在推理阶段，VLA模型仅在单个A100 GPU上运行。为了实现高效的部署，我们实现了一个远程VLA推理服务器，使得机器人能够进行实时动作预测，从而无需依赖本地计算资源进行控制。在所有训练阶段，VLA模型仅训练了1个epoch。此外，对于对齐和SFT（监督微调）训练，我们使用了2e-5的学习率和0.01的预热比例，遵循LLaVA-1.5的配置。

单个元技能性能表现

我们对VLA模型进行了八个元技能的全面评估，除非另有说明，本文中的所有实验默认进行了10次测试。如图6所示，针对已见物体和已见场景的结果展示了我们技能模型的强大性能，针对未见物体和未见场景的强大表现进一步验证了我们技能模型的泛化能力。大多数技能在应用于未见场景时相比已见场景表现略有下降。然而，对于“释放<物体>”和“放置<物体>”这两个技能，我们的VLA模型在未见场景中的表现与已见场景中的表现相当。

泛化性

我们选择了“将粉色立方体放入白色盒子中”作为基本任务，用以评估VLA在不同泛化水平下的表现。

基于VIMA，我们引入了一个5级泛化评估协议，如图7所示。由于在开放世界环境中进行评估的复杂性，我们的指标主要评估物体和场景的泛化能力。等级1-2代表物体泛化的难度；等级3作为过渡，等级4-5对应场景泛化。难度从等级1到等级5逐渐增加。等级4-5主要评估物体泛化，它们之间的区别基于物体识别的难度；而等级3-5则侧重于场景泛化，它们的区别主要取决于场景的复杂性。

在表1中，我们展示了任务中心方法与我们基于技能的VLA模型在小型数据集和完整数据集上的泛化性能比较。对于较简单的等级，我们的基于技能的方法略微优于任务中心方法；而在更具挑战性的等级上，我们的基于技能的方法则显著超过了任务中心的对应方法。这些结果表明，基于技能的方法在处理困难和长时程任务时具有明显的优势。

如图8所示，我们进一步验证了基于技能的方法在任务层面和体现层面上的泛化能力。

我们在两种类型的长程任务上进行了实验，每个任务都要求执行十个元技能，同时控制场景和待操作的物体。此外，我们还将训练好的模型从EP机器人直接部署到S1机器人上，执行障碍物穿越和射击任务。尽管任务具有较高的复杂性，我们的基于技能的方法在任务1和任务2上分别达到了40%和50%的成功率，如表3所示。进一步地，我们的方法在迁移到新机器人时也达到了20%的成功率。

消融实验

预训练

在表2中，我们展示了三种实验设置，旨在证明对齐训练的必要性和重要性。“w/o Pretrain”设置指的是仅对机器人数据进行监督微调（SFT）的VLA模型，没有进行任何对齐训练。“w/ web pretrain”设置使用LLaVA-665K数据集进行多模态对齐训练。“w/ Robotics Pretrain”设置则是在LLaVA-665K和机器人技能数据的共同微调之后进行SFT。表中的结果清晰地表明，多模态对齐训练是非常有效的，而在机器人领域内的对齐进一步提升了性能。

模型大小

在大语言模型领域，增大模型参数通常意味着更强的泛化和理解能力。表4展示了这一原则在VLA模型中的适用性。除了模型大小外，所有其他实验设置（包括对齐训练和监督微调（SFT））在不同模型之间保持一致。更大的13B模型在所有任务中始终取得了更高的成功率，尤其是在未见场景和需要长时程规划的任务中表现尤为突出。

长程任务

表5展示了关于不同难度级别的长时程任务的消融实验。一般来说，随着任务时程的增加，任务的难度也随之上升。对于简单任务，任务中心方法和基于技能的方法在成功率上相当。然而，对于中等难度的长时程任务，基于技能的方法比任务中心方法提高了20%，而在困难任务中，这一性能差距进一步扩大，达到了40%。因此，随着任务时程的增加，基于技能的方法在长时程任务中的优势变得更加明显

结论

在本研究中，我们提出了一种面向可扩展机器人任务规划和执行的基于技能的层次化框架，旨在解决在复杂场景中对适应性强且高效的机器人控制的需求。我们框架的一个关键创新是一个统一的视觉-语言-动作（VLA）模型，专为运动和操作设计，能够将运动和操作输出整合，从而实现多样化的机器人动作。此外，我们的框架在多个维度上展现了强大的泛化能力，包括物体、场景、任务和多机器人泛化，凸显了其适应性和在多种应用中的潜力。综合来看，这些贡献代表了在可扩展和通用机器人自主性方面的重大进展。

【具身智能之心】技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区，聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向，目前近60+技术交流群，欢迎加入！扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

【具身智能之心】知识星球

具身智能之心知识星球是国内首个具身智能开发者社区，也是最专业最大的交流平台，近1000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、大模型、视觉语言模型、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、强化学习全栈学习路线、具身智能感知学习路线、具身智能交互学习路线、视觉语言导航学习路线、触觉感知学习路线、多模态大模型学理解学习路线、多模态大模型学生成学习路线、大模型与机器人应用、机械臂抓取位姿估计学习路线、机械臂的策略学习路线、双足与四足机器人开源方案、具身智能与大模型部署等方向，涉及当前具身所有主流方向。