具身导航赋能智能物流!OpenBench:智能物流最后一公里语义导航新基准

  • 作者:Junhui Wang, Dongjie Huo, Zehui Xu, Yongliang Shi, Yimin Yan, Yuanxin Wang, Chao Gao, Yan Qiao, Guyue Zhou

  • 单位:澳门科技大学系统工程与协作实验室、智能科学与系统联合实验室,清华大学人工智能产业研究院(AIR),北京化工大学信息科学与技术学院,哈尔滨工业大学航天学院,中国科学院大学人工智能学院,北京理工大学机械与车辆工程学院,清华大学车辆与运载学院

  • 标题:OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics

  • 原文链接:https://arxiv.org/pdf/2502.09238

  • 项目主页:https://ei-nav.github.io/OpenBench/

  • 代码链接:https://github.com/EI-Nav/light-map-navigation

主要贡献

  • 论文引入OpenBench基准,用于优化住宅环境中的最后一公里配送,提供了一个框架来评估室外语义导航系统,重点关注长期操作能力和任务理解能力。

  • 提出了OPEN基线系统,具有交互性和易部署性,并使用现成的OpenStreetMap (OSM) 进行轻量级地图表示,消除了预映射的需求。

  • OPEN系统结合了基础模型和经典算法来增强语义导航,使用大模型(LLMs)进行自然语言理解和视觉语言模型(VLMs)进行全局定位、地图更新和门牌号识别。

  • 在模拟和现实环境中进行广泛的实验,验证了OPEN系统在最后一公里配送中的有效性,在导航效率和可靠性方面有显著提升,并公开了代码和基准数据集。

研究背景

研究问题

  • 在智能物流领域,高效解决最后一公里配送问题已成为一项亟待满足的关键需求。

  • 传统导航方法过度依赖高精度地图,导致资源消耗巨大;相比之下,基于学习的方法虽有优势,但在现实场景中的泛化能力存在明显不足,且对大量训练数据存在过度依赖。

  • 随着自动化机器人需求的日益增长,如何提升其操作效率并降低相关成本,已成为该领域的核心问题。

  • 本文提出了一种融合基础模型与经典算法的 Openstreetmap 增强型开放式语义导航(OPEN)系统,旨在显著提升自主机器人在长期操作以及任务理解方面的能力。

研究难点

该问题的研究难点包括:

  • 传统方法的高资源消耗和复杂环境下的泛化问题;

  • 基于学习的方法需要大量训练数据,且在现实场景中表现不佳。

相关工作

  • 传统导航方法:依赖于高精度地图的同步定位与地图构建(SLAM)、路径规划和机器人控制等方法,这些方法在大规模部署中受限,尤其是在住宅区域的最后一公里配送场景中。

  • 基于学习的导航技术:近年来,强化学习和视觉语言模型(VLMs)等技术提供了新的导航方法。这些方法通过将感官输入直接映射到动作来实现导航,但在泛化能力和现实应用中仍存在挑战。

  • 视觉语言模型的应用:VLMs在语义导航中的应用显示出潜力,能够在不依赖大量训练数据和精细标注的情况下实现导航。然而,大多数研究集中在室内导航,室外导航的研究相对较少。

  • 现有方法的局限性:现有的基准和导航方法主要集中在室内环境,无法充分应对室外最后一公里配送的复杂性和长期运营需求。

  • 本文贡献:论文提出了一种结合传统方法和基础模型的创新方法,以应对室外导航的挑战,并为智能物流中的最后一公里配送提供可靠的解决方案。

智能物流BENCHMARK

任务定义

  • 目标:基准的目标是提高导航系统在最后一公里配送任务中的互动性、易部署性和长期可靠性。

  • 任务描述:最后一公里配送任务涉及解释自然语言指令并自主导航至客户住所。系统不需要使用预先构建的地图,而是依赖公开的OpenStreetMap (OSM) 导航数据进行导航。这种设置旨在模仿人类配送人员所面临的实际条件。

模拟环境

  • 平台:基于Gazebo仿真平台,构建了三个不同大小的世界模型,分为小、中、大三类,根据环境的复杂性进行分类。

  • 标签:每个建筑的门上都标有门牌号,以模拟真实世界的情况。

  • OSM数据:为每个世界模型生成相应的OSM数据,以反映现实世界的情况。

评估指标

  • 任务规划成功率(SRTP):量化基于LLMs的任务规划的精确度,反映系统理解指令的能力。公式如下:

    其中, 是总任务数, 是一个二元变量,指示任务成功(1)或失败(0)。

  • 任务完成的成功率(SR)和路径长度加权成功率(SPL):评估任务完成的整体成功率和效率。SR表示成功完成任务的比例,而SPL结合了任务完成和路径效率。

  • 长期成功率(LSR):用于评估连续操作中的任务成功情况。LSR扩展了SR指标,考虑了连续操作中的任务成功。公式如下:

    其中, 表示任务 的成功, 是从指数衰减模型中导出的权重因子。

  • 长期路径长度加权成功率(LSPL):进一步细化评估,考虑任务成功和导航效率随时间的变化。公式如下:

    其中, 表示从起点到任务 目标的最短路径距离, 是实际路径长度。权重因子 :在LSR和LSPL中使用的权重因子遵循指数衰减模型,优先考虑早期任务的影响。公式如下:

    其中, 是衰减率, 表示任务序列, 是总任务数。

研究方法

系统概述

  • 系统结构:OPEN系统用于最后一公里自主配送。系统首先接收自然语言配送请求,通过任务规划模块进行处理,该模块基于大模型(LLM)进行任务规划。模块与OpenStreetMap(OSM)交互以提取目的地细节并生成结构化的任务序列。

  • 导航模式:机器人根据生成的路径自主决定进入导航或探索模式,生成执行路径点的经典规划器。

  • 定位与更新:系统使用经典的局部定位方法进行局部姿态估计,并通过MobileSAM和CLIP模型与OSM集成进行低频全局定位,以减少累积定位误差。

  • 地图更新:机器人检测并识别环境中的物体,更新OSM以增强地图细节,提高未来配送的导航性能。

基于大模型的任务规划

利用LLMs将多语言、自由形式的文本指令转换为结构化的机器人任务。该方法分为三个关键阶段:

  • 地址解析:用户提供自然语言配送指令,初始LLM提示提取并解析一系列地址,将其细分为层次化的子地址。为减少“幻觉”(LLM生成的错误输出),使用二次提示验证提取的信息。

  • 任务优化:地址提取后,另一个提示优化任务序列。地理上相近的任务被分组以便同时完成,跨区域的任务被建模为经典调度问题以提高效率。

  • 位置查询:从最低级别到最高级别查询OSM中的层次化子地址。一旦确认某个级别的地址存在,查询过程停止。根据OSM信息的完整性生成每个配送所需的任务序列。

导航点生成

  • 导航模式:对于配送地址的高层次组件,OSM通常包含位置信息,利用OSM的道路网络数据生成全局路由指引。步骤包括:
    • 道路预处理:将OSM数据转换为基于特定交通配置文件(如车辆、行人)的分层图以实现高效路由。

    • 路径查询:使用多层Dijkstra(MLD)算法进行路由查询,通过分层图减少搜索空间,快速确定地理坐标之间的最优路径。

  • 探索模式:当OSM缺乏精细细节时,机器人自动探索以定位入口。步骤包括:
    • 建筑预处理:从OSM检索目标建筑的位置和几何信息,计算建筑的凹包以排除内部元素。

    • 均匀采样:对膨胀的多边形进行均匀采样,生成面向建筑中心的路径点以优化搜索覆盖。

    • 门牌号识别:在每个路径点,机器人通过RGB相机捕获图像,VLM分析图像以识别目标入口。若未成功定位,机器人移动到下一个路径点,直到成功检测到目标入口。

全局定位与地图更新

  • 全局定位:使用VLMs和OSM进行直接定位,解决城市环境中里程计误差和GPS不可靠的问题。步骤包括:
    • 对象分割:MobileSAM模型分割图像中的对象,OSM提供其包含的元素类型。

    • 嵌入空间编码:分割图像和OSM文本编码到共享嵌入空间,系统根据计算的概率分配语义标签。

    • 点云投影:将点云投影到图像上进行语义映射,保留相关点并投影到鸟瞰图平面。

    • 2D注册:从OSM得到的几何进行2D注册,提供机器人的全局位姿。

  • 地图更新:在线地图更新增强机器人的记忆。过程类似于全局定位,但增加了新检测到的元素(如门牌号板)到地图中,提高配送的效率。

局部定位与规划

  • 局部状态估计:使用FastLIO2进行基于LiDAR的局部位姿估计,维护LiDAR和里程计帧之间的变换。

  • 路径规划:OSM转换为代价图进行A*路径查找,使用Timed Elastic Band算法生成平滑、动态可行的轨迹进行实时控制。

实验

实验设置

  • 模拟环境
    • 机器人配置:使用差速驱动的四轮机器人,配备单目相机和Livox MID-360激光雷达。状态记录器跟踪任务完成情况和运动轨迹,提供评估指标所需的数据。

    • 任务输入:配送目的地随机生成,并组织成文本指令或目标图像作为导航系统的输入。

    • 评估指标:使用前文定义的指标,设置。成功的导航定义为机器人到达目的地10米范围内。

  • 现实环境

    • 机器人配置:在现实环境中,机器人配备Logitech RGB相机、Livox MID-360激光雷达和GPS。GPS记录机器人的实际轨迹,手动评估任务完成情况。手动控制的路径作为比较的最优轨迹。

    • 评估指标:同样使用前文定义的指标,成功的导航定义为机器人到达目的地10米范围内。

  • 评估指标

    • 任务规划成功率(SRTP):评估LLMs将目的地地址解析成指定格式(本工作中为JSON)的成功率。

    • 导航性能:比较不同方法在模拟环境中的成功率(SR)和路径长度加权成功率(SPL)。对于连续任务,评估长期成功率(LSR)和长期路径长度加权成功率(LSPL)。

  • 计算平台

    • 在AMD R9-7945HX处理器和RTX 4060 GPU的PC上进行基准和基线测试。

模拟环境结果

  • 任务规划成功率:评估了几种LLMs,GPT-4O-mini取得了最高的成功率,而其他LLMs仍有改进空间。

  • 导航性能:提出的OPEN系统在模拟环境中表现出色,成功率高,优于NoMaD和ViNT等基于学习的导航系统。NoMaD和ViNT在模拟环境中显示出较差的泛化能力,成功率低,主要是由于导航过程中的碰撞。

  • 长期导航性能:在LSR和LSPL评估中,OPEN系统在大规模模拟环境中表现良好,尽管完成任务数量相同,但得分较高。

  • 地图更新的影响:评估了地图更新对导航效率的影响,发现地图更新显著提高了导航效率。

  • 存储空间效率:比较了OSM、点云地图和拓扑地图的存储空间,OSM的存储空间大约是点云地图的1%,是拓扑地图的0.01%,显示出其高效性。

现实环境结果

  • 实验任务:在现实世界的校园环境中进行实验,任务包括向两个不同的建筑进行顺序配送。

  • 比较方法:评估了ViNT、NoMaD、提出的OPEN系统和手动操作的远程控制基线。ViNT和NoMaD在导航过程中遇到碰撞,未能完成任务,而OPEN系统成功执行了整个配送序列,表现接近手动操作的控制,SPL达到96.1%。

总结

  • 论文提出的OPEN系统结合了OSM和先进的基础模型,解决了可扩展和高效户外导航的挑战。

  • 通过使用OSM进行轻量级地图表示,并结合LLMs和VLMs进行全球定位、地图更新和门牌号码识别,系统克服了传统方法和基于学习方法的局限性。

  • 引入的新基准测试为评估自主配送系统提供了一个有效的框架。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值