论文解读——CVPR2022《One step at a time: Long-horizon vision-and-language navigation with milestones》

本文链接：https://blog.csdn.net/python_plus/article/details/139423854

一、研究背景

复杂的日常环境中，如家庭或办公室，一个任务可能包括多个具有时序依赖的子任务，这些任务必须按特定顺序完成。例如，一个典型的任务可能是“从冰箱取出一个苹果，将它切片后放在盘子里，然后把盘子放在餐桌上。”这样的任务不仅需要代理能够理解与执行简单的导航和交互指令，还要求它们能够持续跟踪整个任务的进度，确保所有子任务都能按正确的顺序完成。

然而，当前的自主代理在执行这些长期任务时面临着显著的挑战。主要问题包括：

指令的复杂性和歧义：自然语言指令可能存在歧义，或者指令本身可能不够详尽，导致代理无法完全理解或误解任务要求。
执行错误或遗漏：在执行长序列任务时，代理可能会忘记某些步骤，或者执行不当，尤其是在没有直接监督的情况下。
环境的动态变化：在动态变化的环境中，原先的计划可能需要根据新的环境信息进行调整，这对代理的适应能力提出了更高的要求。

这些问题的存在使得长期任务的自动执行变得复杂且困难。因此，开发能够有效理解和执行长期复杂任务指令的自主代理系统，特别是能够适应环境变化并准确追踪任务进度的系统，成为该领域的重要研究方向。这也是该论文试图解决的关键问题。

在这里插入图片描述

二、当前难点

执行长期视觉与语言导航（VLN）任务时面临的关键挑战。以下是这些挑战的详细介绍：

子任务的连贯性和依赖性：
长期任务通常可以分解为一系列相互依赖的子任务。每个子任务的执行可能依赖于前一个任务的完成状态，这种依赖性要求代理不仅要理解每个子任务的独立要求，还要理解它们之间的逻辑联系。例如，代理可能需要先煮一个土豆再将其放入冰箱，这要求在执行“放入冰箱”这一动作前，必须完成“煮土豆”的动作。
任务监控和进度跟踪的复杂性：
在长期任务中，代理需要持续监控其在任务序列中的进展。这包括确认每个子任务是否已正确完成，以及在执行过程中是否遵循了正确的步骤顺序。现有的系统往往难以有效实施这种持续的进度跟踪，尤其是在环境信息不完全或代理经验不足的情况下。这可能导致代理忽视某些必要的步骤，或在某个子任务中循环，无法前进到下一个任务。
环境的不确定性和部分可观测性：
代理在执行任务时往往不能完全观测到整个环境，这增加了执行长期任务的复杂性。部分可观测性意味着代理必须能够在有限的信息基础上做出决策。例如，一个物体可能被其他物体遮挡，或者代理的感知系统可能无法捕捉到环境中的所有细节。这要求代理具备较强的推理能力，通过现有的信息推断出不可见部分的状态。
错误处理和自我修正的能力：
在长期任务执行过程中，代理可能会犯错误，如错误解释指令、选错交互对象或走错路线。在这种情况下，代理需要具备自我诊断和修正的能力，能够在不干扰整个任务序列的前提下，纠正错误并回到正确的执行轨道上。现有系统在这一方面往往表现不佳，缺乏有效的机制来及时检测和纠正错误。

这些挑战突出了在设计和开发能够执行复杂长期任务的自主代理时，需要考虑的关键因素。有效地解决这些问题不仅需要改进代理的感知和理解能力，还需要在系统设计中引入更先进的决策支持和进度跟踪机制。

三、技术方案

在这里插入图片描述

在这篇论文中提出的技术方案主要包括开发一个基于里程碑的任务跟踪系统（M-TRACK），它通过两个核心组件——里程碑构建器和里程碑检查器——来优化长期任务的执行效率和准确性。以下是这些技术组件的详细介绍：

里程碑构建器（Milestone Builder）

里程碑构建器的主要功能是从自然语言指令中解析并提取关键任务元素和条件，这些元素和条件被定义为“里程碑”，它们标记了任务完成的关键步骤。这个过程涉及到复杂的自然语言处理技术，主要包括：

实体识别：从指令中识别和分类关键词汇，如目标物体、位置和动作等。
依赖关系解析：分析指令中的语义结构，确定各个任务组件之间的依赖关系，确保子任务的逻辑顺序。

里程碑检查器（Milestone Checker）

里程碑检查器在任务执行过程中实时监控代理的进度，确认其是否已经达到定义的里程碑。这一组件的核心功能包括：

环境感知与对象识别：使用视觉感知系统（如对象检测模型）来识别和定位环境中的目标对象，确认代理的位置与目标的相对关系。
进度确认：检查代理是否完成了与里程碑相关的特定动作，如接近目标、拾取物体等。
动作验证：在代理执行动作前，预先验证这些动作是否会满足里程碑的要求，以防止错误行为的发生。

集成与训练

为了确保M-TRACK系统的通用性和灵活性，它被设计为与不同的VLN模型兼容。这意味着M-TRACK可以轻松集成到现有的机器人导航和任务执行框架中。此外，通过使用增强学习方法，M-TRACK的性能可以进一步优化，使其更好地适应复杂的任务环境和不断变化的操作条件。增强学习主要通过以下方式实现：

奖励机制：定义适当的奖励函数来激励代理更精确地完成任务。
策略迭代：通过不断的试错和策略调整，使代理学习在各种情境下如何更有效地达到任务的里程碑。

这一详细的技术方案不仅提高了任务执行的准确性和效率，还显著提升了系统对复杂任务环境的适应性和鲁棒性。

四、实验结果

在这里插入图片描述

参考文献

[1] Song C H, Kil J, Pan T Y, et al. One step at a time: Long-horizon vision-and-language navigation with milestones[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 15482-15491.