MM-2024 | 智能体遇山开路，遇水架桥！ ObVLN：突破障碍，受阻环境中的视觉语言导航-CSDN博客

本文链接：https://blog.csdn.net/weixin_37990186/article/details/144869127

作者：Haodong Hong, Sen Wang, Zi Huang
单位：昆士兰大学
论文链接：Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments (https://dl.acm.org/doi/pdf/10.1145/3664647.3681640)
代码链接：https://github.com/honghd16/ObstructedVLN

提出R2R-UNO数据集，首次将指令-现实不匹配问题引入VLN任务，通过在R2R数据集中修改导航图和视觉观测，生成了多样化的障碍物，反映了真实世界导航的复杂性。
提出ObVLN方法，包括课程训练策略和虚拟图构建机制，帮助智能体有效适应障碍物环境。
在R2R-UNO数据集上，ObVLN方法相比现有方法在障碍物环境中的成功率提高了23%，达到了67%的成功率，显著提升了智能体的适应性。
在R2R、REVERIE和R2R-UNO数据集上进行了广泛的实验，证明了在VLN研究中引入R2R-UNO的重要性，并展示了ObVLN在原始和无障碍环境中的良好表现。

当前的VLN任务通常假设指令与固定的预定义导航图完全一致，忽略了实际导航图中可能存在的障碍物，这会导致在室内和室外环境中导航失败。

论文主要解决视觉语言导航（VLN）在实际环境中遇到的指令与现实的匹配问题。

该问题的研究难点包括：

在VLN中，智能体需要遵循自然语言指令在模拟环境中导航。环境通常是一个预定义的无向导航图，智能体在每个时间步感知一个全景视图，并决定一个动作来移动到相邻节点。

然而，现实世界的导航图可能会发生变化，例如由于障碍物的存在，导致指令与现实不符，智能体必须找到替代路径。

提出了R2R-UNO数据集，通过在R2R数据集的导航图和视觉观察中进行修改，引入了各种类型的路径障碍，以生成指令与现实的不一致性问题。

图的变化：
- 定义了在R2R数据集中路径上的冗余边，并根据这些边的组合创建了不同的阻塞集合（Block-x），其中x表示阻塞边的数量。
- 对于每个路径，识别出所有冗余边，并为每组冗余边的组合计算替代路径，以确保即使某些边被阻塞，智能体仍然可以到达目的地。
- 为了避免生成过长的路径，设置了新路径长度的限制。
视觉变化：
- 为了与图的变化保持一致，引入了两个新模块：对象插入模块和过滤模块。
- 对象插入模块使用稳定的扩散修复模型来在全景视图中插入物体，从而在视觉上模拟障碍物的存在。
- 过滤模块通过使用CLIP模型评估每个视图-物体对的兼容性分数，从多个生成的候选视图中选择高质量的修复结果。
对象插入过程：
- 描述了如何在节点的全景视图中定位另一个节点，并计算像素坐标以生成掩码。
- 使用修复模型生成修复后的视图，并通过过滤模块选择最佳的修复结果。
- 最后，将更新后的视图传播到相邻视图，以保持全景视图的一致性。
多视图一致性：
- 仅在节点连接的冗余边上执行2D修复可能会导致多视图不一致性。
- 尽管如此，这种不一致性在他们的任务中对智能体性能的影响较小，因为指令与现实的不匹配主要是由图的变化定义的。