避障成功率提升40%！ ClipRover 仅使用单目视觉实现零样本推理+高效导航

深蓝学院

于 2025-03-13 17:10:09 发布

阅读量1k

点赞数 7

文章标签：人工智能

本文链接：https://blog.csdn.net/soaring_casia/article/details/146011749

版权

当机器人进入完全陌生的环境，传统导航系统就像拿着旧地图找路的旅人，依赖预先测绘的地图或大量数据训练。而最新问世的「ClipRover」导航系统，让机器人化身自带"直觉"的探险家——仅凭一颗普通摄像头，就能在未知领域实时探索、锁定目标并规划最优路径。

©️【深蓝AI】编译

论文标题：ClipRover: Zero-shot Vision-Language Exploration and Target Discovery by Mobile Robots

论文作者：Yuxuan Zhang, Adnan Abdullah, Sanjeev J. Koppal, and Md Jahidul Islam

论文地址：https://robopi.ece.ufl.edu/cliprover.html

这项技术的革命性突破在于"边看边走"的智能决策模式。研究团队巧妙运用视觉语言模型CLIP，使机器人能像人类一样理解环境语义：扫描场景时自动识别"类似办公室走廊的布局"或"接近消防栓的障碍物"，同步生成探索策略。更惊人的是，整套系统完全摆脱对预存地图、目标特征库的依赖，甚至在复杂地形中避障成功率比传统算法提升40%。实验中的无人车"Rover Master"在仓库、户外林地等场景穿梭时，其行动轨迹精度竟与依赖完整地图的规划系统不相上下。这项技术或将彻底改变救灾机器人、火星探测车的作业模式，让"零准备闯入未知"成为智能机器的标配能力。

▲图1｜所提出的 ClipRover 系统正在进行的探索和目标发现任务示意图。©️【深蓝AI】编译

左侧：代表机器人机载摄像头的合成图像；圆锥体表示其视野范围，该视野被划分为六个编号的区域，以便进行详细分析。右侧：每个区域的视觉 - 语言感知由一种新型关联中间件进行处理；运动混合引擎目前处于 “目标锁定” 模式，由于目标（位于 5 号区域的泰迪熊）被赋予了比其他可导航区域（例如 6 号区域）更高的优先级，因此它优先考虑目标。

一、背景简介

自动探索和目标发现是机器人学中的一个基本问题，应用范围从搜救到环境监测和表面映射。

在二维探索中，家用机器人（如吸尘器和仓库机器人）已经有了显著的实现。传统上，它们的导航策略依赖于各种形式的Bug算法（Bug0、Bug1、Bug2），这些算法在机器人对环境有先验知识并能局部感知障碍物时最为适用。其原理是通过应用简单的障碍物避让方案，利用指向目标的视距梯度。像随机漫步或预定义的搜索模式这样的算法，也被用于探索未知工作空间，进而开发出占据网格图，在该图上可以部署标准的路径规划算法进行移动机器人导航。

树搜索算法，如Dijkstra和A*，因其简单高效且适合有限的机载资源而广受欢迎。对于较大的搜索空间，通常采用基于采样的方法，如概率道路图（PRM）和快速探索随机树（RRT）及其改进版RRT*，进行实时的源到目标路径规划。

在现有的无人地面车辆（UGV）系统中，映射和目标发现通常作为独立的过程进行，依赖于不同的传感器。例如，常用2D激光雷达进行障碍物避让和映射，而独立的相机则用于场景分类和目标检测。在更复杂的三维环境中，如水下洞穴探索，机器人可能需要使用包括声纳、激光雷达和相机在内的多种传感器，通过生成环境的语义表示来导航和探索。然而，在部分可观察和动态变化的环境中，初始的地图遍历并不可行，往往需要频繁的修正或重新初始化。

更先进的UGV系统通过使用在线路径规划算法来应对动态障碍物和部分可观察的状态空间。其主要挑战是，当新的障碍物与轨迹相交或环境发生动态变化时，如何调整路径。为此，视觉引导机器人利用场景中动态物体的语义理解和时空建模来进行路径规划。

对于视觉语义导航，路径规划器成为任务规划器的中间表示，用于应用特定的更高层次任务，如检查、搜救、探索等。近年来，更多的交互式任务规划器与视觉语言导航（VLN）模型结合使用，以便通过自然语言和视觉（语义）线索使机器人理解任务。这对于人机协作系统（如仓库、医疗和社交环境中的机器人）尤为有用。VLN使机器人能够从语言描述中解读任务的上下文，并将相应的视觉线索映射到实际的导航决策中。然而，将视觉语言模型（VLM）集成到地图探索的早期阶段仍然未被探讨。文章作者假设，这种集成能够使机器人利用高级的零-shot视觉信息进行同时探索和目标发现，而无需先验地图。

本论文提出了ClipRover，一个新颖的框架，利用通用视觉语言模型（VLM）的空间上下文感知能力，引导机器人在未知环境中的探索和目标发现。该框架采用模块化架构，分为三个关键阶段：感知、关联和决策。该模块化设计使得能够将复杂的系统级挑战分解为较小的、可管理的子问题，从而便于每个阶段的迭代改进。此外，该框架具有高度可配置的关联中间件，提供灵活性以适应各种任务和环境条件，无需任何先验地图或目标知识。

为了在现实环境中验证所提出的框架，文章作者开发了一个UGV平台，能够满足VLM的计算需求，并在任务执行过程中提供优越的机动性和机械稳定性。文章作者在所提出的架构中部署了CLIP模型，并在现实环境中进行了广泛的测试。

总体而言，本文做出了以下贡献：

科学贡献：提出了一个新型导航框架，名为ClipRover，用于在未知环境中进行UGV的同时探索和目标发现。该框架将VLM的能力集成到一个模块化架构中，包括作为前端的视觉编码器、作为中间件的语言关联数据库，以及作为后端的决策系统。
系统贡献：设计了一种新型UGV平台，支持VLM基础的导航系统（如ClipRover）的机动性和计算需求。该平台被设计为强大且可配置，适用于通用机器人研究，并将为学术用途开源。
集成贡献：开发了一个完整的系统，将所提出的导航框架与UGV平台集成，并通过综合基准测试对其进行实时性能优化。文章作者展示了在现实应用场景中部署此类系统所涉及的关键挑战和实际问题。

二、具体方法与实现

如图2所示，本文的该框架由三个主要阶段组成。前端处理原始输入帧，将其分割成小块，并将这些小块编码为嵌入—代表语义含义的数值向量；在文章作者的实现中，使用CLIP视觉编码器作为前端。然后，中间件组件将前端生成的视觉嵌入作为输入，并生成具有特定语义解释的分数。这些分数通常通过将输入嵌入与中间件的内部数据库进行关联来得出。这些分数的含义根据应用的要求而有所不同。在本研究中，中间件生成三种类型的分数：可导航性、熟悉度和目标置信度。最后，在后端，这些来自中间件的分数被用来做出运动决策。它设计为具有适应性，允许集成不同的算法，以满足各种应用和环境的需求。

▲图2｜ ClipRover的整体框架©️【深蓝AI】编译

■ 2.1. 视觉感知前端

在前端，原始相机帧被切割成六块（如图1所示），每个小块代表机器人视场中的一个空间位置，这些小块被缩放并通过CLIP的视觉编码器处理。如图2f所示，每个帧被切割成N=6个小块，然后重新排列成一个形状为N × 3 × H × W的张量，其中H和W分别是小块的高度和宽度（以像素为单位）。编码器处理这些输入并为每个小块生成一个N × D的嵌入向量，其中D是每个预测向量的维度（在CLIP模型中，D=512）。

此外，还计算了每个小块的标准差，并将其与模型的预测结果结合使用。这个度量作为每个小块中信息量的指标，在机器人遇到特征稀缺、颜色均匀的物体（如墙壁、门或家具）时特别有用。在这种情况下，异常低的标准差表明视觉编码器的输出可能缺乏可靠性。

■ 2.2. 可导航性中间件：视觉-语言相关性

为了区分可导航的空间和不可导航的空间，文章作者设计了一组描述清洁且可导航环境的正向提示，例如：“一张（平坦|开放|宽阔|清晰的）{地板|地面|走廊}的照片”，以及一组描述被障碍物堵塞的空间的负向提示，例如：“一张[裁剪|模糊|不完整]的（被阻挡|杂乱|拥挤的）{场景|空间}的照片”和“一张（大|阻挡通道的）{物体|物品}的照片”。如图3a所示，清洁的地板被识别为可导航空间，而图3c中的杂乱场景则准确地被分类为不可导航。

▲图3｜导航流程的细节©️【深蓝AI】编译

对于目标发现，文章作者使用类似的文本提示来定义任务的目标。在文章作者的实验中，由于其在场景中的独特性，文章作者使用玩具熊作为发现目标。文章作者设计了一组描述目标的提示，例如：“一张（棕色|玩具）{熊|泰迪熊}的照片”。文章作者还设计了一组负向提示来描述通用物体，用于过滤掉错误的正面例子，例如：“一张（未知的）{物品|场景|物体}的照片”。如图3b所示，目标提示准确地识别出了玩具熊，而负向提示则有效地抑制了与玩具熊无关的物体（如图3c中的纸箱）所产生的错误正面例子。

计算得出的可导航性和目标置信度分数是基于每个小块计算的。如图3a-c所示，CLIP视觉编码器为每个小块生成了嵌入，然后通过内积与提示数据库进行比较。提示数据库由CLIP文本编码器生成的预编码文本提示组成，分为正向和负向类别。最终的分数范围为−1.0到1.0，由与提示匹配的最高绝对分数确定。

通过在每个数据库中使用正向和负向提示，并根据它们的对比选择最终结果，相关性过程变得更加稳健，能够抵抗绝对相关性值的波动。这种方法在照明条件变化或复杂场景中尤为有用，在这些环境中，所有分数可能会因视觉输入的质量而向上或向下漂移。此外，这种方法消除了手动设置固定阈值的需要，进一步提高了其适应性。

■ 2.3. 熟悉度中间件：视觉-视觉相关性

除了可导航性分数外，还实时积累了一个熟悉度数据库，用于跟踪先前探索过的空间。该数据库由视觉嵌入（512维向量）构成，代表已知空间，而不存储或使用实际的图像。当传入的视觉嵌入与现有向量的相关性分数超过预定的阈值时，该嵌入被认为是“已知的”。每个新的嵌入向量会逐步合并到熟悉度数据库中；文章作者为此实现了以下两种策略：

1.对属于已知位置的所有向量进行平均，这包括跟踪已经合并到已知位置（s）的向量数量：

2.在合并新向量时进行滚动平均操作；这种方法不需要跟踪已经合并的向量的总数量。因此，向量倾向于向新插入的向量靠拢，并逐渐“遗忘”较旧的向量。遗忘的“速率”可以通过一个因子 λ（即衰减因子）来控制：

当数据库中不存在已知向量时，传入的向量会作为新数据点插入。最终，数据库中的每个感知向量都会生成一个熟悉度分数。这个分数通过鼓励机器人优先探索未探索区域，而不是重新访问已知区域，从而指导导航。

■ 2.4. 导航决策后端

最后，决策模块根据感知和相关系统提供的信息生成运动指令。具体来说，引入了一个“运动混合器”作为基线的相关性到运动的转换器。它考虑了前面提到的每个瓦片的所有分数（即可导航性、熟悉度和标准差），并做出智能决策。运动混合器通常优先选择高度可导航但较不熟悉的区域，同时避免纹理较少的区域，这些区域通过低标准差值表示。为了处理复杂的情况，决策模块还包含两个额外的功能：

1.陷阱检测，使机器人能够识别并逃脱潜在的死胡同

在某些情况下，机器人可能会遇到“死胡同”，即在其视场（FOV）内看不到可导航的路径。在一些罕见的情况下，视觉语言模型可能会为机器人不充分理解的场景生成假阳性导航分数。例如，当相机位置过于接近一面白色的墙时，由于缺乏显著特征，可能会导致不正确的正向分数。这种情况被定义为“被困”状态，可能在两种条件下发生：（a）接近开关在指定时间内发出停止信号，或者（b）通过里程计测量的累积行驶距离在给定时间段内低于定义的阈值。经验上，如果机器人在过去的5秒钟内行驶距离少于0.2米，则系统会标记机器人为被困。

2.环顾四周，使机器人能够在复杂环境中重新定位自己。

由于单个相机的视场有限，机器人只能看到它面前的物体。为了解决这个问题，引入了“环顾四周”机制，使机器人能够通过执行360°旋转来获得情境意识，同时收集与不同方位相关的导航分数。然后，对这些分数应用高斯卷积，以确定最可导航的方向。在从“被困”状态恢复时，环顾四周机制通过一个线性因子k优先选择与原始方向不同的方向，奖励偏离初始方向的方位。此外，在新任务开始时会触发环顾四周行为，确保机器人识别出最有前景的探索路径。

三、实验

作者不仅进行了大量的实验，还自行搭建了一个实验平台，作为本技术的载体，如下图所示：

(a) 背面视图，展示了单板计算机（SBC）以及电子元件堆叠，其中包括无刷电机速度控制器、带有惯性测量单元（IMU）的飞行控制器和电源分配板；

(b) 正面视图，展示了用于零样本导航的摄像头；

随后作者展示了实验的环境，如下图所示，

(a) 机器大厅的概览；

(b) 作为发现目标的玩具熊的照片；

■ 3.1. 运动分离变分自编码器（MS-VAE）

接下来是本文的实验结果，首先是数值实验，可以看到在数值实验中，本文的算法取得了不错的成绩，能够打败大部分的SOTA方法，在轨迹和规划成功概率的表现上也是取得了非常出色的成绩。

作者还将整体的轨迹可视化了出来，如下图所示，可见各算法的轨迹叠加在测试环境的二维地图上。圈出的数字表示 ClipRover 的环顾操作及其遵循的相应路径点序列。对于 Bug 算法，红色、绿色和蓝色轨迹分别代表 Bug0、Bug1 和 Bug2 遍历的路径，能够看到本文的算法总是可以得到一条最轻松愉快并且省时省力的轨迹！

四、总结

在本文中，作者介绍了 ClipRover，这是一种为自主地面机器人在未知环境中同时进行探索和目标发现而设计的新型导航流程，它借助了视觉 - 语言模型（VLMs）的力量。与传统方法不同，传统方法将探索与路径规划分开，并依赖低效的算法，而 ClipRover 仅使用单目视觉，无需先验地图或特定目标信息，就能实现零样本推理和高效导航。

为了验证作者的方法，作者开发了一个名为 Rover Master 的功能性原型无人地面车辆（UGV）平台，该平台针对现实世界环境中的通用视觉 - 语言导航（VLN）任务进行了优化。广泛的评估结果表明，ClipRover 在效率方面优于最先进的地图遍历算法，并且性能与依赖先验知识的路径规划方法相当。将基于 CLIP 的 VLM 集成到实时导航系统中，突显了 ClipRover 在推进智能机器人探索方面的潜力。作为一个模块化且灵活的框架，ClipRover 为未来将 VLMs 应用于更复杂和动态的机器人应用（如自主仓储、安全巡逻和智能家居辅助）奠定了基础。

Ref：ClipRover: Zero-shot Vision-Language Exploration and Target Discovery by Mobile Robots

编译｜阿豹

审核｜apr