©PaperWeekly 原创 · 作者 | 岳露
单位 | 北京大学
研究方向 | 视觉语言导航
论文题目:
Safe-VLN: Collision Avoidance for Vision-and-Language Navigation of Autonomous Robots Operating in Continuous Environments
论文链接:
https://ieeexplore.ieee.org/abstract/document/10496163
https://arxiv.org/pdf/2311.02817.pdf
研究背景
在数字化、智能化浪潮下,通过指令控制无人系统执行一系列复杂操作达到某一特定目标的重要性日益凸显。而连续环境中的视觉和语言导航任务(Vision-and-Language Navigation in Continuous Environments,VLN-CE)[1] 便是其中的一项特定任务,并被视为人机交互领域在具身智能上的重要延伸。
具体而言,该任务通过自然语言指令控制无人系统在 3D 连续环境中根据视觉输入进行导航。另外,VLN-CE 属于计算机视觉、自然语言处理以及智能体等多学科交叉任务,通过对视觉语言进行特征提取与匹配,对智能体的下一动作进行推理。该技术能够使移动智能体在现实环境中理解人类的语言指令并完成任务,更贴近现实生活中人们对智能体的需求。
然而,在将 VLN 中算法迁移至 VLN-CE 任务中时,导航性能上有着显著差距,原因之一是在没有完美导航假设的连续环境中,智能体经常会发生碰撞。因此,本团队提出了面向 VLN-CE 中的碰撞问题的安全避障框架,针对 VLN-CE 中的碰撞情形进行了分类并提出 Safe-VLN,该工作近期发表在 IEEE Robotics and Automation Letters(RAL)上。
如图 1 所示,在视觉语言导航任务中,障碍物会导致智能体偏离原计划路线,甚至在一些特殊情况下,智能体会被困于障碍区域无法继续前进。因此,如何解决现实场景中存在的导航安全问题成为 VLN 算法从离散环境迁移到连续环境乃至现实环境中的关键。
▲ 图1. VLN-CE碰撞情形分类示意图
碰撞情况在 VLN-CE 中普遍存在,这是由连续环境设置带来的挑战所引起的。首先,与离散环境中的航路点位置相比,由于对周围环境的不正确感知,航路点预测器会将候选航路点预测在障碍区,导致航路点不可达。其次,在连续环境中,没有了相邻节点之间的完美导航,当涉及到具有重建误差的障碍物时,智能体容易被障碍物干扰导航路线,从而无法到达下一个子目标。
虽然在智能体自主导航中存在许多避障研究,但由于 VLN-CE 中较长的导航路径、更复杂的环境以及额外的指令对齐等难度,处理避障的难度大大提升。受自主导航中碰撞研究的启发,本文对 VLN-CE 中碰撞的原因进行了分类,提出了连续环境下自主智能体视觉语言导航的安全避障方法,相应地改进了航路点预测器和导航规划模块