港大最新成果!EMOS:基于大模型多智能体的异构多机器人操作系统

作者 | Junting Chen  编辑 | 具身智能之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

本文只做学术分享,如有侵权,联系删文

写在前面&出发点

当人类进行团队协作的时候,为了协作效率,总是根据任务的需求和协作成员自身的背景能力,讨论协商包括任务分配在内的协作方案 。对于协作异构机器人系统 (Cooperative Heterogeneous Multi-robot Systems),如何去协作往往基于专家设计和编写的一套固定协作逻辑。然而开放世界任务的复杂性,越来越丰富的机器人硬件,对人工设计规则的多机协作系统扩展性构成了极大的挑战。

近日,来自新加坡国立大学、香港大学、上海人工智能实验室、牛津大学、CAMEL-AI社区等多家机构的联合研究团队提出了一种创新的异构多机器人操作系统EMOS(Embodiment-aware Heterogeneous Multi-robot Operating System)。该框架基于大语言模型的多智能体系统 (LLM-based Multi-agent System),以机器人物理定义文件和环境信息为输入,实现了对机器人空间物理能力和任务需求的理解,从而实现了更有效的任务规划,并利用大模型工具调用(Function Call)能力,进行多机系统分布式动作的执行

同时该工作提出了 Habitat-MAS 评测基准,包含多种任务,例如跨楼层物体导航、协作感知、单层家庭重新排列和多机器人、多物体、跨楼层协作重新排列。实验结果表明,EMOS 框架在 Habitat-MAS 基准上取得了优异的性能,证明了其有效性。

论文地址:https://arxiv.org/abs/2410.22662

33ddfc22c020f7c21b56e4b0f5ed5222.png

研究背景与动机

现有的异构多机器人系统(HMRS)在处理复杂任务时面临两大挑战:

  1. 高度依赖人工设计的协议, 泛化能力有限

  2. 自动化程度不足, 任务拆解和子任务的分配尚未实现完全自动化

由于每个机器人的硬件差异(如轮式、腿式或飞行平台),如何让各自的物理特性得以充分利用并进行有效协作,也是一大难题。比如轮式机器人不能通过楼梯跨楼层移动,不同机器人深度相机的位姿对能感知的物体空间范围有很大影响,不同机器人机械臂工作空间决定了能抓取到的物体高度,水平距离等。为解决这些问题,研究团队提出了基于LLM的多智能体框架EMOS,通过"机器人简历"机制实现对机器人物理能力的精确理解,从而实现更智能、自主的任务规划与执行。

主要方法介绍

机器人简历(Robot Resume)机制

EMOS 摒弃了传统的人工角色分配方式,通过大模型阅读分析以及前向运动学工具(Forward Kinematics Tools)调用的混合方法理解URDF文件,生成包含机器人移动能力、感知能力和操作能力的“机器人简历”。这些基于运动学计算的统计数据和数字数据,在后续会作为机器人代码生成的context 输入,去实现精确的空间检查和空间推理。比如一个物体是否可能超出了机器人抓取的范围。

f2c9e4df42b4de9f32721e5dbe3eacfe.png

分层式任务规划与执行

Habitat-MAS通过仿真器真实(Ground Truth)的场景布局和机器人信息,基于规则构建包含场景布局、机器人状态和物体状态的场景上下文(Scene Context)。这些上下文信息会和任务描述信息一起输入EMOS多智能体系统,进行处理。EMOS采用"集中式群组讨论+分布式并行执行"的两阶段架构:

  • 为了得到一个结构化文本和task planning的收敛性,多轮集中式群组讨论后,大语言模型会对发言历史进行总结,并转换生成一个机器人任务分配的字典,用于分发子任务到各个机器人。

  • 各机器人智能体通过大模型工具调用分布式并行执行子任务,机器人动作执行的API已经预先提供好。

31e6d39db64a190ef05e2d02c77fc28a.png

实验平台与结果展示

Habitat-MAS基准测试平台

研究团队还开发了Habitat-MAS基准测试平台, 包含多层楼房等复杂场景并支持无人机、轮式机器人、腿式机器人等多种类型。这个测试基准中设计了4类测试任务, 这些任务包括跨楼层物体导航、协作感知、单楼层物体整理(object rearrangement)和多机器人、多物体、跨楼层物体整理等。各个任务或者子任务经过筛选处理,只有特定的机器人才能完成,随机策略会失败。

实验结果

实验结果表明,EMOS在Habitat-MAS的各类任务中均显著优于现有方法,尤其在需要多机器人协作的复杂任务中表现突出。具体而言:

  1. 在需要机器人理解自身物理限制,部分机器人才能完成的任务中,EMOS在任务成功率上具有显著优势。

  2. 在复杂长序任务中,机器人简历和多智能体系统的集中讨论显著提升了任务完成率。

一些总结与展望

EMOS首次实现了基于机器人物理特性的自动化任务规划和分配,尝试去解决传统系统中人工规则设计过多的问题,为未来异构多机器人系统的完全自动提供了新的思路和一次探索,并且提供了评估异构多机器人协作系统的标准化测试平台。

未来,EMOS框架还可以进一步扩展:

  1. 增强系统的适应性:将EMOS框架扩展到更动态的环境和更复杂的任务。

  2. 与其他AI技术结合:将EMOS框架与强化学习和深度学习等技术结合,进一步提升HMRS的性能。

  3. 未来提升物理仿真效果,减小sim-to-real gap,可以进一步提升探索EMOS在真实机器人系统中的应用潜力

『自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

86212bba16bdc29fcc4b9dbffa531aab.png

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

b24cfa55c3d7709d3d5055b1f7c8fdd0.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

9e42d034117892e67421628e398f3dd9.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

36333762bfc6f6f60e5944ffd9009f89.jpeg

④【自动驾驶之心】全平台矩阵

80c43b624464ed99cc7ba8865ff8d823.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值