认知启发的具身导航概念分类！NAVCON：基于认知和语言对齐的视觉语言导航语料库-CSDN博客

本文链接：https://blog.csdn.net/weixin_37990186/article/details/146129327

作者： Karan Wanchoo, Xiaoye Zuo, Hannah Gonzalez, Soham Dan, Georgios Georgakis, Dan Roth, Kostas Daniilidis, Eleni Miltsakaki
单位：宾夕法尼亚大学
论文标题：NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation
论文链接：https://arxiv.org/pdf/2412.13026

论文介绍了大规模的视觉语言导航语料库NAVCON，包含了对R2R和RxR数据集中超过30,000条指令进行的高层次导航概念标注。
训练了导航概念分类器（NCC），能够识别未见过的文本中的导航概念，在测试中表现出色，准确率高达96.53%，证明了标注的有效性和可靠性。
通过使用GPT-4o进行少样本学习实验，尽管GPT-4o的表现不如NCC，但其结果仍然表明了大型语言模型在处理此类任务时的能力。
通过人类评估研究和实验验证了标注的质量和实用性。人类评估显示，自动标注的方法在识别导航概念时准确率超过95%，进一步支持了NAVCON的可靠性和有效性。

论文旨在使机器人或其他智能体能够根据语言指令在各种空间中导航。

由于资源限制和环境的不可预测性，VLN模型需要具备实时处理语言和视觉输入的能力，并能将学习应用于新的物理环境中和未见过的指令。

该问题的研究难点包括：

该问题的研究内容包括：

受到大脑映射研究的启发，基于对大脑中负责导航的区域的研究，定义了四个核心的导航概念类别，这些概念类别在动物和人类的导航行为中起着重要作用。具体来说：

Situate Yourself：
- 这一概念类源自海马体中位置细胞的放电率变化。
- 位置细胞根据动物的位置增加或减少放电率，帮助动物确定自己在环境中的位置。
Change Direction：
- 这一概念类与头方向细胞有关，这些细胞位于边缘系统中，根据动物的头部方向独立于其位置进行放电。
- 可以帮助动物在环境中调整方向。
Change Region：
- 边界细胞根据环境中的边界进行放电。
- 这些细胞帮助动物识别和适应环境中的不同区域。
Move along a Path：
- 这一概念类涉及空间导航和定向，依赖于运动及其激活的运动、前庭和本体感觉系统。
- 心理学家Lynch的分类中将“路径”视为个体移动的通道。

这些概念类别被识别为导航指令中的核心概念，帮助机器人在执行导航任务时理解和应用这些高层次的概念，提高机器人在复杂环境中的导航能力。

该部分的目标是识别语言中的导航概念，并对其进行标注。具体步骤包括：

结果：
- 根动词：识别出348个根动词，经过人工评估后，确定了81个根导航动词。
- 概念分布：四个概念类别（Situate Yourself、Move along a Path、Change Direction、Change Region）在指令中的分布情况。

为了评估自动标注的质量，进行人类评估研究。具体步骤包括：

为了支持跨模态模型的训练，NAVCON还包括与标注的导航概念对应的视频帧。具体步骤包括：

评估概念-视频配对的准确性。具体步骤包括：

训练一个导航概念分类器（NCC）模型，用于识别输入文本中的导航概念及其对应的短语。目标是验证NAVCON标注的质量和实用性。

模型选择：使用轻量级通用目的模型DistilBERT（distilbert-base-uncased）进行微调。
数据准备：使用30,629条标注指令进行训练。每个单词被分配一个标签，表示它属于五个类别之一（四个导航概念和一个非类别）。
格式化：使用BIO格式进行训练数据的格式化。对于概念短语的第一个单词添加前缀"B-"，表示短语的开始；对于短语中的其他单词添加前缀"I-"。
训练：使用学习率为，在6个epoch上进行微调。
评估：
- 短语识别：评估预测的标签是否正确，并测量预测的短语与真实短语的重叠百分比。
- 结果：NCC模型在预测概念和对应短语方面的准确率达到96.53%。

NCC模型的成功训练验证了NAVCON标注的有效性和可靠性，表明该方法可以大规模生成高质量的导航概念标注。

探索使用大型语言模型（LLM）进行少样本学习，以生成高层次导航概念的标注。

GPT-4o实验：
- 提示设计：设计一个提示，描述预测导航概念的任务，并提供3个示例。
- 训练：使用GPT-4o模型，通过提示和3个示例学习关键短语与导航概念之间的关联。
- 评估：使用190条未见过的指令（来自相同的金数据集）进行评估，测量GPT-4o的预测准确性。
结果：
- 准确性：GPT-4o在预测完整概念和对应短语方面的准确率达到82.12%。