VLN论文精读（五）OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics

长官我是读书人

于 2025-04-21 17:05:14 发布

阅读量1.4k

点赞数 56

分类专栏：论文精读文章标签：人工智能学习笔记论文阅读 VLN

本文链接：https://blog.csdn.net/nenchoumi3119/article/details/147395241

版权

论文精读专栏收录该内容

38 篇文章

订阅专栏

这篇论文是2025年发表在arxiv上的一篇VLN论文。该论文旨在解决无人配送的“最后一公里”问题，即小区或单元楼范围的楼栋配送问题，局部定位与路径规划使用的是FastLio2、A*、TEB算法，全局定位与姿态估计靠LLM解决，整个系统zero-shot，同时对比了多个LLM模型，认为 GPT-4o-mini 效果最好。作者在真实与仿真环境中均进行了测试，由于这一领域的相似研究较少，所以文中的模型对比部分内容较为贫瘠，但根据作者的实验结果可以证明他们的方法明显强于另外两种基于学习的方法；

写在最前面

为了方便你的阅读，以下几点的注意事项请务必了解：

该系列文章每个字都是我理解后自行翻译并写上去的，可能会存在笔误与理解错误，如果发现了希望读者能够在评论区指正，我会在第一时间修正错误。
阅读这个系列需要你有基本的 VLN, LLM, VLM 相关基础知识，有时候我会直接使用英文名词，因为这些词汇实在不容易找到符合语境的翻译。
原文可能因为版面限制存在图像表格与段落不同步的问题，为了更方便阅读，我会在博文中重新对图像表格进行排版，并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
对于原文中的图像，我会在必要时对图像描述进行翻译并附上我自己的理解，但如果图像描述不值得翻译我也不会强行写上去。

Basic Information

论文标题：OpenBench: A New Benchmark and Baseline for Semantic Navigation in Smart Logistics
原文链接: https://arxiv.org/abs/2502.09238
发表时间：2025年02月13日
发表平台：arxiv
预印版本号：[v1] Thu, 13 Feb 2025 11:55:33 UTC (956 KB)
作者团队：Junhui Wang, Dongjie Huo, Zehui Xu, Yongliang Shi, Yimin Yan, Yuanxin Wang, Chao Gao, Yan Qiao, Guyue Zhou
院校机构：
- Macau University of Science and Technology;
- Tsinghua University, AIR;
- Beijing University of Chemical Technology;
- Harbin Institute of Technology;
- University of Chinese Academy of Sciences;
- Beijing Institute of Technology;
- Tsinghua University, School of Vehicle and Mobility;
项目链接: https://ei-nav.github.io/OpenBench/
GitHub仓库: https://github.com/EI-Nav/light-map-navigation

Abstract

智能物流中对最后一英里的高效配送需求日益增长，凸显了自主机器人在提高运营效率和降低成本方面的作用。传统的导航方法依赖于高精度地图，需要耗费大量的资源，而基于学习的方法在实际场景中往往难以推广。为了应对这些挑战，本文提出了 OpenStreetmap-enhanced 开放式语义导航 (OPEN) 系统，该系统将基础模型与经典算法结合，实现可扩展的户外导航。该系统使用现成的 OpenStreetMap (OSM) 进行灵活的地图表示，无需进行大量的地图预绘制工作，采用LLM来理解配送指令、VLM进行全球定位、地图更新、门牌号识别。为了弥补现有基准测试在评估“最后一英里”配送方面的不足，本文引入了一个专为住宅区户外导航设计的新基准测试，以反映自主配送系统面临的现实挑战。在仿真和真实环境中进行的大量实验证明了该系统在提升导航效率和可靠性方面的有效性。代码和基准测试已开源 https://github.com/EI-Nav/light-map-navigation。

1. Introduction

在智能物流的背景下，对高效自主的最后一英里配送的需求正在迅速增长。自主机器人为满足这一需求提供了一种有前景的解决方案，以提高配送效率、改善客户体验、降低成本、最大限度地减少对人工的依赖。为了实现这些目标，导航系统应该具有交互性、易于部署且高效。传统的导航方法需要高精度语义地图，资源密集型的特性阻碍了大规模部署；同时，近期的基于学习方法通常难以在真实场景中推广，并且需要大量的训练数据。为了克服这些挑战，作者提出了一种Openstreetmap-enhanced开放式语义导航（OPEN）系统，该系统将基础模型与经典算法相结合，为户外语义导航提供了一种可扩展的解决方案。

方法使用开放街道地图 (OSM) 作为轻量级地图表示，无需劳动密集型的地图预绘制。通过使用 OSM 开源数据，OPEN 系统可以动态解释和导航各种户外环境。此外，融入了基础模型以增强系统功能，LLM 用于理解和分析配送指令；VLM 则用于在开放世界中进行全球定位、地图更新、门牌号识别，模型即使在没有 GPS 的情况下，这也能确保导航的稳定性。

根据调研，现有的语义导航基准测试主要侧重于室内环境，不足以满足智能物流中大规模室外语义导航的需求。这些基准测试未能充分捕捉现实世界中最后一英里配送的交互性和长期运营需求。为了弥补这一差距，作者设计了一个专门针对住宅区最后一英里配送的新基准测试。该基准测试模拟了现实世界的情况，要求机器人仅使用导航地图从指定的起点导航到客户家门口，这反映了人类快递员面临的实际挑战。

综上所述，本文提出的方法通过集成基础模型和开放系统模型 (OSM)，增强了机器人导航系统的交互性和易于部署的能力。此外，本文提出的基准测试通过引入针对“最后一英里”配送长期运行的评估指标，弥补了现有基准测试的不足。致力于推动高效、可靠、可扩展的住宅区机器人配送解决方案研究。本文的主要贡献如下：

New Benchmark for Last-Mile Delivery：提出了一个新的基准来优化住宅环境中的最后一英里配送，评估户外语义导航系统的框架，重点关注配送过程中的长期运行能力和任务理解能力；
Baseline Implementation：OPEN系统是住宅区最后一英里配送的基准，它具有交互性且易于部署，并使用现成的OSM进行轻量级地图表示，无需预先绘制地图；
Combination of Foundation Models and Classic Algorithms：OPEN 系统结合基础模型和经典算法来增强语义导航， LLM 进行自然语言理解、VLM 进行全球定位、地图更新、门牌号识别。这种方法确保了可靠的非 GPS 导航，从而提高了系统的效率、可靠性和长期性能；
Simulated and Real-World Experiments：在仿真和现实环境中进行的大量实验验证了 OPEN 系统在“最后一英里”配送中的有效性，证明了导航效率和可靠性显著提升；

2. Related Work

实现自主移动机器人可靠高效的导航仍然是一项重大挑战。传统的导航方法，如SLAM、Path Planning、Robot control，严重依赖预先构建的高精度地图，限制了其大规模部署，尤其是在居民区“最后一英里”配送场景中。

基于学习的导航技术，尤其是强化学习的最新进展通过将感知输入直接映射到动作，提供了有希望的替代方案，但这些方法主要针对短距离导航，并且受到与在线策略强化学习相关的差距的限制；NoMaD 和 ViNT 使用目标图像和拓扑图来促进视觉引导的机器人导航；MTG 和 TGS 采用基于 CVAE 的轨迹生成方法来生成不同的候选轨迹，然后选择最优轨迹。然而，这些基于学习的方法通常需要大量的训练数据集和计算资源，并且它们在不同环境中的泛化能力往往有限。

LLM 和 VLM 的出现使语义导航成为机器人技术的一个有希望的方向。Gadre 等人探索使用 CLIP 模型进行语言驱动的zero-shot 导航；Huang 等人推出了 VLMaps 将预训练的视觉语言特征与 3D 重建相结合，实现复杂的语言驱动导航；Yokoyama 等人提出了Vision-Language Frontier Map 将 occupancy maps 与 VLM 相结合，在仿真和现实环境中实现导航。虽然大多数研究集中在室内导航，但 Dhruv 等人着眼于较少探索的室外语义导航领域，使人们能够根据自然语言指令执行复杂任务，无需微调或数据标注。

为了进一步推进导航系统在户外环境中的应用和评估，特别是应对智能物流中的最后一英里配送挑战，本文提出了相应的基准和基线，方法结合了传统方法和基础模型的优势，为实际场景提供了稳健的解决方案。

3. Last-Mile Delivery Benchmark

该基准测试旨在增强“最后一英里”配送场景中导航系统的交互性、易部署性、长期可靠性。如Fig.1所示，鼓励用户实现能够处理配送指令并完成相应任务的语义导航系统。

在这里插入图片描述

A. Task Definition

最后一英里配送任务涉及解读自然语言指令，并从起点自主导航到客户住所。该系统无需使用预建地图，而是依靠公开的 OSM 导航数据，引导机器人到达客户家门口，与人类配送人员在现实生活中遇到的情况非常相似。

B. Simulation Enviroments

基于 Gazebo 仿真平台，作者构建了三个大小各异的世界模型，并根据其环境的复杂程度将其分为三个级别：小型、中型、大型。如Fig.2 所示，这些模型中的每栋建筑的门上都标注了门牌号。还为每个世界模型生成了相应的 OSM 数据，以反映现实世界的情况。

在这里插入图片描述

C. Evaluation Metrics

为了评估最后一英里交付任务中的交互性和长期导航，作者提出了以下评估流程关键方面的指标：

Success Rate of Task Planning：任务规划成功率 (SRTP) 量化了基于 LLM 的任务规划精度，反映了理解指令的能力，定义为，其中 $N$ 是配送任务的总数， $T_{i}$ 是一个二元变量，表示任务成功 (1) 或失败 (0)。：

$\begin{equation} SRTP=\frac{1}{N}\sum^{N}_{i=1}T_{i} \end{equation}$

Success Rate：成功率 (SR) 表示成功完成任务的比例；
Success Weighted by Path Length：路径长度加权成功率 (SPL) 评估任务完成的效率，同时考虑了任务完成度和路径效率；
Long-term Success Rate：对于顺序交付，保持一致的绩效至关重要。由于交付任务与任务规划紧密相关，因此先前任务的失败可能会对后续任务的执行产生不利影响。例如，如果每个任务都有特定的截止日期，那么先前失败的任务将影响所有后续所有任务的完成时间。为了评估这一点，引入了长期成功率 (LSR)，通过考虑连续运营过程中任务的成功率来扩展 SR 指标，其中 $S_{i}$ 表示成功的任务 $i$ ； $c_{i}$ 是根据指数衰减模型得出的加权因子：

$\begin{equation} LSR=\frac{1}{N}\frac{\sum^{N}_{i=1}c_{i}\cdot S_{i}}{\sum^{N}_{i=1}c_{i}} \end{equation}$

Long-term Success Weighted by Path Length：路径长度加权长期成功率 (LSPL) 指标进一步完善了这一评估，它同时考虑了任务成功率和导航效率随时间的变化，定义如下，其中 $l_{i}$ 表示第 $i$ 个任务从起点到终点的最短距离； $p_{i}$ 是实际走过的距离，

$\begin{equation} LSPL=\frac{1}{N}\frac{\sum^{N}_{i=1}c_{i}\cdot S_{i}\cdot\frac{l_{i}}{max(p_{i},l_{i})}}{\sum^{N}_{i=1}c_{i}} \end{equation}$

LSR 和 LSPL 中的加权因子 $c_{i}$ 都遵循指数衰减模型， $r$ 表示衰减率； $i$ 表示任务序列； $n$ 表示任务总数。该模型优先考虑较早完成的任务，并考虑其对后续交付的影响。：

$\begin{equation} c_{i}=\frac{r^{i-1}\cdot(1-r)}{1-r^{n}}, i=1,2,3,\dots,n \end{equation}$

LSR 和 LSPL 指标提供了对长时性能的度量，对 SR 和 SPL 指标进行了补充，以评估机器人配送解决方案的持续效率。

4. Proposed Method

A. System Overview

Fig.3展示了OPEN系统流程，该流程始于自然语言配送请求，由LLM的任务规划模块处理。该模块与OSM 交互，提取目的地详细信息并生成结构化的任务序列；然后，机器人自主确定是在导航模式下运行还是在探索模式下运行，并生成路径点，供经典规划器执行。

在这里插入图片描述

对于局部位姿估计，机器人采用经典的定位方法。为了减轻累积定位误差并与 OSM 坐标系对齐，系统通过将 MobileSAM 和 CLIP 模型与 OSM 集成，以较低频率执行全局定位。机器人还能检测并识别其环境中的物体，并更新 OSM 以增强地图细节，并改进未来配送的导航。

通过结合 LLM 和 VLM，该系统无需预绘制地图，具有交互性、易于部署且高效，在提供精准导航的同时，还能持续丰富 OSM。持续的地图增强功能可提高长期导航性能及其对实际场景的适应性。

B. LLM-based Task Planning

本研究提出了一种任务规划方法，利用 LLM 将多语言、自由格式的文本指令转换为结构化的机器人任务。该方法分为三个关键阶段，如Fig.3 (A)所示：

在这里插入图片描述

Address Resolution：用户使用自然语言提供递送指令，通常包含多个任务。LLM 会提取并解析出一系列地址，然后将其细分为层级分明的子地址。为了缓解“幻觉”现场，使用二次提示来验证提取的信息。提示 LLM 模拟类似人类的推理能力可以进一步降低出错的风险；
Task Optimization：提取地址后，传入另一个提示用于优化任务序列。地理位置相近的任务会被分到同一组以便同时完成；跨区域的任务则会被建模为经典的调度问题，以提高效率并减少递送耗时；
Location Query：方法从最低层到最高层级查询 OSM 中的层级子地址，一旦确认某个地址存在于某一层级，查询过程便会停止。查询结果分为两类：(i) 如果 OSM 中存在最低层级的子地址，机器人将直接基于此信息进行导航；(ii) 如果 OSM 中不存在任何子地址，机器人将首先导航至已知的最低层级子地址，然后再探索缺失的较低层级子地址。因此，每次配送所需的任务序列将根据 OSM 信息的完整性生成；

C. Waypoints Gerneration

机器人接收到任务序列后，在OSM的引导下执行导航或探索活动以完成配送。本研究引入了两种用于导航和探索的航点生成模式，如Fig.3 (B)所示：

在这里插入图片描述

Navigation Mode：对于送货地址的更高级别组件，OSM 通常包含位置信息，可以利用 OSM 的道路网络数据来生成全局路线指引，路线规划需要以下两个步骤，该方法提供了一种可扩展的解决方案，用于在不同的地理区域和运输方式中生成准确、高效的路线：
- Road Preprocessing：OSM 数据被转换为基于特定交通环境的配置文件（例如车辆、行人）的层次图，以便高效规划路线；
- Route Querying：路由过程采用多级迪杰斯特拉 (MLD) 算法，MLD 利用分层图来减少搜索空间，从而可以快速确定地理坐标之间的最佳路径；
Exploration Mode：当 OSM 缺乏细粒度的细节（例如精确的建筑物入口）时，机器人会通过以下步骤自主探索以找到入口：
- Building Preprocessing：首先从 OSM 中检索目标建筑物的位置和几何形状，为了获取建筑物的外部边界并排除内部元素，会计算建筑物的凹壳；然后，对该多边形会被膨胀，以确保在建筑物周围形成可靠的搜索区域；
- Uniform Sampling：对膨胀后的多边形进行均匀采样，生成面向建筑物质心的航点，以优化搜索覆盖范围并引导机器人到达潜在入口；
- House Number Recognition：对于在每个航点，机器人都会通过其 RGB 摄像头捕捉图像，然后由 VLM 进行分析以识别目标入口。如果 VLM 确定未找到目标入口，机器人将前进至下一个航点，并继续此过程，直至成功检测到目标入口；

D. VLM-based Global Localization and Map Update

在复杂环境下增强自主导航需要强大的全局定位能力。作者提出了一种利用 VLM 和 OSM 进行定位的新方法，将机器人的位置与 OSM 坐标系对齐以减少里程计漂移，并在城市提供可靠的 GPS 替代方案。该方法还通过融入新元素支持动态地图更新，从而提升了在实际场景中的适应性。

在这里插入图片描述

Global Localization：为了解决城市环境中的里程计误差和不可靠的 GPS 问题，本研究使用 VLM 与 OSM 进行直接定位。如Fig.3 (C) 所示，MobileSAM 模型对图像中的对象进行分割，而 OSM 提供其中包含的元素类型（例如建筑物、道路），使用 CLIP 将分割后的图像和 OSM 文本编码到共享嵌入空间中，系统根据计算的概率为对象分配语义标签。聚合标记结果以识别分割图像中的 OSM 元素。然后将点云投影到图像上以获取语义信息，保留相关点并将其投影到鸟瞰图 (BEV) 平面上；最后与 OSM 衍生的几何图形进行 2D 配准可提供机器人的全局姿态；
Map update：在线地图更新可以增强机器人的记忆力，这一过程与全局定位类似，关键区别在于地图中加入了新检测到的元素，例如门牌号。通过在 OSM 中添加更精细的地址信息，系统可以提高未来配送的效率；

该方法的一个关键优势在于其在定位和地图更新中元素类型的灵活性。通过利用 CLIP 的zero-shot泛化能力，该系统能够适应开放世界环境，类似于人类认知，而不受预定义元素的限制。

E. Local Localization and Planning

准确的局部状态估计和高效的路径规划对于机器人导航至关重要，如Fig.3 D所示。使用 FastLIO2 进行基于 LiDAR 的精确局部姿态估计，保持 LiDAR 和里程计框架之间的转换。子图将局部状态估计作为里程计因子，将全局估计作为先验因子，在实现全局定位后，添加新的先验因子并优化子图，更新地图和里程计框架之间的转换，即使没有 GPS 该方法也能确保定位误差随时间有界；对于路径规划，将 OSM 转换为用于 A* 寻路的代价地图，然后使用 TEB 算法生成平滑、动态可行的轨迹，以实现实时控制。

在这里插入图片描述

5. Experiments

A. Experiment Setup

Simulation Environment：如Fig.2所示，仿真采用差速驱动四轮机器人，配备单目摄像头和Livox MID-360激光雷达。状态记录器跟踪任务完成情况和运动轨迹，为评估指标提供数据；
Real-world Environment：如Fig.4所示，机器人配备了Logitech RGB camera、Livox MID-360 激光雷达和 GPS。GPS 记录机器人的实际轨迹，同时手动评估任务完成情况。手动控制的路径作为最佳轨迹进行比较；
Evaluation Metrics：使用第 3-C 节中的指标，在Equation.4 中设置 $r = 0.9$ ，成功导航定义为机器人到达目的地 10 米以内；
Computing Platform：基准和基线测试是在配备 AMD R9-7945HX 处理器和 RTX 4060 GPU 的 PC 上进行的；

Fig.2	Fig.4

B. Results on Simulation Environment

在仿真实验中，配送目的地被随机生成，并组织成文本指令（如Fig.3 A）或目标图像作为导航系统的输入。
在这里插入图片描述

Sucess Rate of Task Planning：任务规划的成功取决于 LLM 能否准确地将目标地址解析为指定格式（本文中为 JSON）；规划失败会影响后续的导航任务，这凸显了任务理解的重要性。作者对比了多个 LLM，每个 LLM 都进行了 60 次测试运行。如Table.2所示，GPT-4o-mini 的成功率最高，而其他 LLM 则显示出改进空间；
Navigation Performance：根据作者调研，目前没有开源模型能作为本文任务的baseline。因此，将提出的方法与 NoMaD 和 ViNT 进行了比较，这两个系统是基于学习的导航系统，利用目标图像和拓扑图使移动机器人能够导航至目标，它们都需要预先采集的图像来构建拓扑地图。为了评估 SR 和 SPL，测试了五个单独的任务，并在每次试验之间重启系统；对于 LSP 和 LSPL，评估的是持续交付到五个目的地的情况。由于缺乏多任务处理能力，NoMaD 和 ViNT 未进行 LSP 和 LSPL 评估；

如Table.1所示，NoMaD 和 ViNT 在仿真环境中均表现出较差的泛化能力，成功率低主要是由于导航过程中的碰撞，导航仅在简单任务下成功。相比之下，利用 OSM 制导和 VLM 模块的所提出的 OPEN 系统取得了更高的成功率，优于 NoMaD 和 ViNT。在 LSR 和 LSPL 评估中，所提出的方法分别在小型、中型、大型模拟环境中完成了五项、三项、三项任务。与单独执行任务相比，成功任务的数量有所减少，表明顺序执行会影响性能。但是，由于早期任务的权重较高，尽管完成了相同数量的任务，该系统在大型仿真环境中获得了更高的分数。总体而言，该系统在长期导航中保持了强劲的性能。

在这里插入图片描述

Influence of Map Update：通过导航到三个随机生成的目的地（已知门位置和未知门位置）来评估地图更新的影响，计算SPL来量化效率提升，三个目的地的SPL分别提升了30.61%、6.31%和47.87%，如Table.3所示：

在这里插入图片描述

Map Storage Efficiency Evaluation：轻量级的地图表示对于实际的机器人应用至关重要。作者将OSM和点云地图与NoMaD中使用的拓扑地图进行了比较，点云地图使用0.2米体素网格进行下采样，如Table.4所示，地图的存储空间约为点云的1%和拓扑地图的0.01%，证明了其效率。

在这里插入图片描述

C. Results on Real-world Environment

实验在真实的校园环境中进行，利用北京化工大学 (BUCT) 区域的 OpenStreetMap 数据，这些数据直接从 OpenStreetMap 网站获取，如Fig.5 所示。实验任务包括向两栋不同的建筑物进行顺序配送。评估了四种不同的方法：ViNT、NoMaD、作者的OPEN 系统、人工操作的远程控制基线。每种方法的导航轨迹如Fig.5 所示。

在这里插入图片描述

ViNT 和 NoMaD 系统在导航至第一栋建筑时均遭遇碰撞，最终未能完成任务。相比之下，OPEN 系统成功完成了整个运送过程，其性能与人工操控系统非常接近，SPL 达到 96.1%。

6. Conclusions

本文引入了 OPEN 系统，一种全新的“最后一英里”配送方法，它将 OSM 与先进的基础模型相结合，以应对可扩展且高效的户外导航挑战。通过使用 OSM 进行轻量级地图表示，并结合 LLM 和 VLM 进行全局定位、地图更新和门牌号识别，该系统克服了传统基于地图和基于学习的方法的局限性，专为“最后一英里”配送设计的新基准，为评估自主配送系统提供了一个有效的框架。在仿真和现实环境中的实验表明，导航效率、可靠性、长期运行能力均有显著提升。这表明该系统无需预先绘制地图，即可直接部署在各种住宅环境中。