具身导航赋能智能物流！OpenBench：智能物流最后一公里语义导航新基准-CSDN博客

本文链接：https://blog.csdn.net/weixin_37990186/article/details/145702839

作者：Junhui Wang, Dongjie Huo, Zehui Xu, Yongliang Shi, Yimin Yan, Yuanxin Wang, Chao Gao, Yan Qiao, Guyue Zhou
单位：澳门科技大学系统工程与协作实验室、智能科学与系统联合实验室，清华大学人工智能产业研究院（AIR），北京化工大学信息科学与技术学院，哈尔滨工业大学航天学院，中国科学院大学人工智能学院，北京理工大学机械与车辆工程学院，清华大学车辆与运载学院
标题：OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics
原文链接：https://arxiv.org/pdf/2502.09238
项目主页：https://ei-nav.github.io/OpenBench/
代码链接：https://github.com/EI-Nav/light-map-navigation

主要贡献

论文引入OpenBench基准，用于优化住宅环境中的最后一公里配送，提供了一个框架来评估室外语义导航系统，重点关注长期操作能力和任务理解能力。
提出了OPEN基线系统，具有交互性和易部署性，并使用现成的OpenStreetMap (OSM) 进行轻量级地图表示，消除了预映射的需求。
OPEN系统结合了基础模型和经典算法来增强语义导航，使用大模型（LLMs）进行自然语言理解和视觉语言模型（VLMs）进行全局定位、地图更新和门牌号识别。
在模拟和现实环境中进行广泛的实验，验证了OPEN系统在最后一公里配送中的有效性，在导航效率和可靠性方面有显著提升，并公开了代码和基准数据集。

研究背景

研究问题

在智能物流领域，高效解决最后一公里配送问题已成为一项亟待满足的关键需求。
传统导航方法过度依赖高精度地图，导致资源消耗巨大；相比之下，基于学习的方法虽有优势，但在现实场景中的泛化能力存在明显不足，且对大量训练数据存在过度依赖。
随着自动化机器人需求的日益增长，如何提升其操作效率并降低相关成本，已成为该领域的核心问题。
本文提出了一种融合基础模型与经典算法的 Openstreetmap 增强型开放式语义导航（OPEN）系统，旨在显著提升自主机器人在长期操作以及任务理解方面的能力。

研究难点

该问题的研究难点包括：

传统方法的高资源消耗和复杂环境下的泛化问题；
基于学习的方法需要大量训练数据，且在现实场景中表现不佳。

智能物流BENCHMARK

任务定义

目标：基准的目标是提高导航系统在最后一公里配送任务中的互动性、易部署性和长期可靠性。
任务描述：最后一公里配送任务涉及解释自然语言指令并自主导航至客户住所。系统不需要使用预先构建的地图，而是依赖公开的OpenStreetMap (OSM) 导航数据进行导航。这种设置旨在模仿人类配送人员所面临的实际条件。

模拟环境

平台：基于Gazebo仿真平台，构建了三个不同大小的世界模型，分为小、中、大三类，根据环境的复杂性进行分类。
标签：每个建筑的门上都标有门牌号，以模拟真实世界的情况。
OSM数据：为每个世界模型生成相应的OSM数据，以反映现实世界的情况。

评估指标

任务规划成功率（SRTP）：量化基于LLMs的任务规划的精确度，反映系统理解指令的能力。公式如下：

其中，是总任务数，是一个二元变量，指示任务成功（1）或失败（0）。
任务完成的成功率（SR）和路径长度加权成功率（SPL）：评估任务完成的整体成功率和效率。SR表示成功完成任务的比例，而SPL结合了任务完成和路径效率。
长期成功率（LSR）：用于评估连续操作中的任务成功情况。LSR扩展了SR指标，考虑了连续操作中的任务成功。公式如下：

其中，表示任务的成功，是从指数衰减模型中导出的权重因子。
长期路径长度加权成功率（LSPL）：进一步细化评估，考虑任务成功和导航效率随时间的变化。公式如下：

其中，表示从起点到任务目标的最短路径距离，是实际路径长度。权重因子：在LSR和LSPL中使用的权重因子遵循指数衰减模型，优先考虑早期任务的影响。公式如下：

其中，是衰减率，表示任务序列，是总任务数。

研究方法

系统概述

系统结构：OPEN系统用于最后一公里自主配送。系统首先接收自然语言配送请求，通过任务规划模块进行处理，该模块基于大模型（LLM）进行任务规划。模块与OpenStreetMap（OSM）交互以提取目的地细节并生成结构化的任务序列。
导航模式：机器人根据生成的路径自主决定进入导航或探索模式，生成执行路径点的经典规划器。
定位与更新：系统使用经典的局部定位方法进行局部姿态估计，并通过MobileSAM和CLIP模型与OSM集成进行低频全局定位，以减少累积定位误差。
地图更新：机器人检测并识别环境中的物体，更新OSM以增强地图细节，提高未来配送的导航性能。

基于大模型的任务规划

利用LLMs将多语言、自由形式的文本指令转换为结构化的机器人任务。该方法分为三个关键阶段：

地址解析：用户提供自然语言配送指令，初始LLM提示提取并解析一系列地址，将其细分为层次化的子地址。为减少“幻觉”（LLM生成的错误输出），使用二次提示验证提取的信息。
任务优化：地址提取后，另一个提示优化任务序列。地理上相近的任务被分组以便同时完成，跨区域的任务被建模为经典调度问题以提高效率。
位置查询：从最低级别到最高级别查询OSM中的层次化子地址。一旦确认某个级别的地址存在，查询过程停止。根据OSM信息的完整性生成每个配送所需的任务序列。

导航点生成

导航模式：对于配送地址的高层次组件，OSM通常包含位置信息，利用OSM的道路网络数据生成全局路由指引。步骤包括：
- 道路预处理：将OSM数据转换为基于特定交通配置文件（如车辆、行人）的分层图以实现高效路由。
- 路径查询：使用多层Dijkstra（MLD）算法进行路由查询，通过分层图减少搜索空间，快速确定地理坐标之间的最优路径。
探索模式：当OSM缺乏精细细节时，机器人自动探索以定位入口。步骤包括：
- 建筑预处理：从OSM检索目标建筑的位置和几何信息，计算建筑的凹包以排除内部元素。
- 均匀采样：对膨胀的多边形进行均匀采样，生成面向建筑中心的路径点以优化搜索覆盖。
- 门牌号识别：在每个路径点，机器人通过RGB相机捕获图像，VLM分析图像以识别目标入口。若未成功定位，机器人移动到下一个路径点，直到成功检测到目标入口。

全局定位与地图更新

全局定位：使用VLMs和OSM进行直接定位，解决城市环境中里程计误差和GPS不可靠的问题。步骤包括：
- 对象分割：MobileSAM模型分割图像中的对象，OSM提供其包含的元素类型。
- 嵌入空间编码：分割图像和OSM文本编码到共享嵌入空间，系统根据计算的概率分配语义标签。
- 点云投影：将点云投影到图像上进行语义映射，保留相关点并投影到鸟瞰图平面。
- 2D注册：从OSM得到的几何进行2D注册，提供机器人的全局位姿。
地图更新：在线地图更新增强机器人的记忆。过程类似于全局定位，但增加了新检测到的元素（如门牌号板）到地图中，提高配送的效率。

局部定位与规划

局部状态估计：使用FastLIO2进行基于LiDAR的局部位姿估计，维护LiDAR和里程计帧之间的变换。
路径规划：OSM转换为代价图进行A*路径查找，使用Timed Elastic Band算法生成平滑、动态可行的轨迹进行实时控制。

实验

实验设置

模拟环境
- 机器人配置：使用差速驱动的四轮机器人，配备单目相机和Livox MID-360激光雷达。状态记录器跟踪任务完成情况和运动轨迹，提供评估指标所需的数据。
- 任务输入：配送目的地随机生成，并组织成文本指令或目标图像作为导航系统的输入。
- 评估指标：使用前文定义的指标，设置。成功的导航定义为机器人到达目的地10米范围内。

现实环境
- 机器人配置：在现实环境中，机器人配备Logitech RGB相机、Livox MID-360激光雷达和GPS。GPS记录机器人的实际轨迹，手动评估任务完成情况。手动控制的路径作为比较的最优轨迹。
- 评估指标：同样使用前文定义的指标，成功的导航定义为机器人到达目的地10米范围内。
评估指标
- 任务规划成功率（SRTP）：评估LLMs将目的地地址解析成指定格式（本工作中为JSON）的成功率。
- 导航性能：比较不同方法在模拟环境中的成功率（SR）和路径长度加权成功率（SPL）。对于连续任务，评估长期成功率（LSR）和长期路径长度加权成功率（LSPL）。
计算平台
- 在AMD R9-7945HX处理器和RTX 4060 GPU的PC上进行基准和基线测试。

模拟环境结果

任务规划成功率：评估了几种LLMs，GPT-4O-mini取得了最高的成功率，而其他LLMs仍有改进空间。
导航性能：提出的OPEN系统在模拟环境中表现出色，成功率高，优于NoMaD和ViNT等基于学习的导航系统。NoMaD和ViNT在模拟环境中显示出较差的泛化能力，成功率低，主要是由于导航过程中的碰撞。
长期导航性能：在LSR和LSPL评估中，OPEN系统在大规模模拟环境中表现良好，尽管完成任务数量相同，但得分较高。
地图更新的影响：评估了地图更新对导航效率的影响，发现地图更新显著提高了导航效率。
存储空间效率：比较了OSM、点云地图和拓扑地图的存储空间，OSM的存储空间大约是点云地图的1%，是拓扑地图的0.01%，显示出其高效性。

现实环境结果

实验任务：在现实世界的校园环境中进行实验，任务包括向两个不同的建筑进行顺序配送。
比较方法：评估了ViNT、NoMaD、提出的OPEN系统和手动操作的远程控制基线。ViNT和NoMaD在导航过程中遇到碰撞，未能完成任务，而OPEN系统成功执行了整个配送序列，表现接近手动操作的控制，SPL达到96.1%。