论文标题:Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration
中文标题:通过多模态思维链评分协作增强多机器人语义导航
https://arxiv.org/pdf/2412.18292
0、摘要
了解人类如何协同利用语义知识来探索不熟悉的环境并决定导航方向对家政服务多机器人系统至关重要。以往的方法主要集中在单机器人集中规划策略上,严重限制了探索效率。最近的研究考虑了多机器人的分散规划策略,为每个机器人分配单独的规划模型,但这些方法往往忽略了通信成本(存在的问题)。在这项工作中,我们提出了多模态思维链协同导航(MCoCoNav),这是一种利用多模态思维链来规划多机器人协同语义导航的模块化方法。MCoCoNav将视觉感知与视觉语言模型(VLMs)相结合,通过概率评分来评估探索价值,从而减少了时间成本并获得稳定的输出。此外,使用全局语义图作为通信桥梁,在集成观测结果的同时最大限度地减少通信开销。在反映探索趋势的分数的指导下,机器人利用这张地图来评估是探索新的边界点还是重新访问历史节点。在HM3D v0.2和MP3D上的实验验证了该方法的有效性。我们的代码https://github.com/FrankZxShen/MCoCoNav。
1、引言
导航到指定目标的能力对家政机器人来说至关重要,这使它们能够在不熟悉的室内环境中有效地找到指定的物体,并完成各种后续任务。因此,目标导航(ObjectNav) (Du, Yu, and Zheng 2020;Mayo, Hazan和Tal 2021;Chaplot et al. 2020)的任务已经引起了极大的关注。传统的ObjectNav任务要求机器人根据视觉观察在不可见和未映射的环境中导航到用户指定的物体类别。鉴于环境对所有机器人都是不可见的,它们必须协同推断目标可能出现的潜在位置。这就需要多个机器人之间进行有效的沟通和合作(例如,无冲突的沟通和沟通后的全局规划),使它们能够根据观察到的视觉线索做出相应的决策。
建立面向多机器人的结构化导航协作框架,集中规划策略将所有机器人的观察、历史和其他相关信息映射到一个统一的通道,使用一个单一的规划模型,负责为每个机器人组或个人分配目标。然而,随着环境的复杂性和机器人数量的增加,规划模型的信息处理负担显著增加。或者,分散式规划策略为每个机器人分配一个独立的“大脑”来进行独立推理,使机器人能够像人类一样交流和分享有关探索区域的信息。这些方法促进了新发现与以前探索过的区域之间的联系,从而实现了适应性决策。通过将多个机器人生成的信息分布到不同的规划模型中,减轻了决策负担。然而,由于大量的通信和相关的时间成本,分散的规划战略仍然受到限制。
利用vlm作为多模态场景理解和导航规划的工具,为机器人系统提供了易于解释的中间表示。尽管vlm生成的叙述可能不足以用于导航,但其模拟人类思维过程的思维链(CoT)推理方法可以告知或指导多机器人语义导航任务中底层导航堆栈的行为(例如:为机器人之间的信息处理和通信提供中间表示)。因此,一些工作集成了VLM多模式CoT 将多模态CoT的问题分解推理作为启发式方法来指定策略。然而,在复杂多样的室内场景中,利用多模式CoT进行导航可能不太可靠。如图1 (a)所示,在导航过程中,无意义的场景视角经常会破坏多模态CoT推理过程。相比之下,如果分散规划策略中的场景视角和机器人的全局语义图都可以被多模态CoT理解,则推理决策将更加可靠。例如,场景视角在全局语义地图上的位置可以用来推断适当的答案。
为了提供场景视角和全局语义图的高层信息,我们提出了MCoCoNav。利用多模态思维链为陌生环境下的多机器人导航开发有效的探索和决策策略的新框架。如图1 (b)所示,在给定机器人当前场景视角的情况下,MCoCoNav的Perception模块利用多模态CoT来评估其探索价值,预测“Yes”的概率作为探索分数。考虑到导航规划过程中产生的巨大通信成本,MCoCoNav使用全局语义地图作为机器人之间的直接通信桥梁,避免了额外的通信成本开销。所有机器人共同维护一个全局语义地图,该地图集成了对未知环境的所有观察。此外,为了充分利用历史节点在全局语义地图中的作用,对于机器人正在探索的每个节点,我们检查VLM探索前沿点的倾向和设计指标,以计算节点的水平视野得分和历史得分。前者表示机器人对当前节点的探索倾向,后者表示不同历史节点的探索可能性,两者都与全局语义地图的更新同步。随后,每个机器人在全局语义地图上选择Decision模块预测概率最高的边界点或历史得分最高的历史节点作为其长期导航目标。