ECCV-2024 | 多模态大模型助力具身导航！NavGPT-2：释放视觉语言大模型的导航推理能力

最新推荐文章于 2025-04-13 00:17:17 发布

小天才学习机打游戏

最新推荐文章于 2025-04-13 00:17:17 发布

阅读量1.4k

点赞数 29

文章标签：人工智能知识图谱神经网络 langchain windows

本文链接：https://blog.csdn.net/m0_59164520/article/details/145460596

版权

代码链接：https://github.com/GengzeZhou/NavGPT-2

主要贡献

论文采用新型架构，整合视觉语言模型（VLM）与拓扑图导航策略，增强智能体在复杂环境中的自主导航；
能在数据有限的情况下达到先进性能，优化学习和推理过程，加快收敛，提升泛化能力；
以人类可理解的方式解释导航决策，增强模型解释性，提升用户体验和用户对智能体的信任。

研究背景

研究问题

与为视觉语言导航（VLN）任务训练的专用模型相比，现有的将大语言模型（LLMs）应用于VLN任务的方法存在显著的性能差距。因此，论文主要解决如何利用LLMs来提升VLN任务的性能。

研究难点

该问题的研究难点包括：

零样本方法需要复杂的提示工程，容易导致信息丢失；
微调方法虽然利用了LLMs的预训练权重，但由于训练数据不足和预训练目标与VLN任务的差异，性能仍然落后。

研究方法

NavGPT-2结合了大型视觉语言模型（VLM）和基于拓扑图的导航策略网络。使用Q-former模块处理视觉观察和指令，提取图像标记作为LLM的输入。

将VLM特征作为视觉语言表示

视觉与语言对齐

采用Q-former设计，将每个视角的图像编码为固定长度的视觉标记。
使用ViT-g/14作为视觉编码器提取视觉特征，并通过自注意力机制与指令文本嵌入进行交叉注意。

导航系统提示

在导航提示中注入方向信息，使用特殊标记和插入图像标记和指令。
生成10K导航推理数据，并在预测标记上对Q-former和投影层进行指令微调。

图结构导航策略

使用拓扑图作为记忆机制，追踪导航经验并支持有效规划和回溯。节点嵌入表示访问过的节点和未探索的相邻节点，使用多层Transformer建模节点间的空间关系。

节点嵌入

其中，表示表示节点的视图数量。

图感知自注意力

其中，表示空间关联矩阵。

全局动作预测

使用两层前馈网络处理GASA输出的节点表示，生成动作分数。选择得分最高的节点作为目标，并沿最短路径控制到达该节点。

多阶段学习

使用多阶段学习框架，用于动作和推理，包括数据获取与整理以及策略学习两个关键步骤。

数据获取与整理

通过自动数据生成流程，利用GPT-4V训练视觉语言模型（VLM），以获得导航推理能力。该过程涉及：

从R2R数据集中随机选择步骤，
使用全景图像作为输入，
让GPT-4V基于环境观察和地标确定行动。

生成的推理结果用于训练VLM，使其理解导航任务的空间结构和物理运动后果。

策略学习阶段

结合行为克隆和DAgger损失函数来微调导航策略网络。

行为克隆使用专家示范数据训练策略网络，
DAgger损失通过引入伪标签改进策略网络，这些伪标签基于智能体通过策略网络采样生成的最短路径图确定。

总损失函数结合行为克隆损失和DAgger损失，并通过平衡因子调整。

实验设计

评估指标

采用多种评估指标对模型性能进行评估，包括：

平均路径长度（TL），
最终位置与目标位置间的平均距离（NE），
路径成功率（SR），
理想停止策略下的成功率（OSR），
路径长度加权的成功率（SPL），
基于动态时间规整加权成功率（NDTW），
综合成功率和路径忠实度的指标（SDTW）。

实现细节

NavGPT-2基于InstructBLIP架构，使用四种大语言模型（LLMs），并采用相同的视觉编码器（ViT-g/14）。训练分为两个阶段：

第一阶段在VQA数据集上进行视觉指令微调，Q-former训练200,000步，批量大小为8；
第二阶段冻结预训练的VLM，微调下游策略网络，批量大小为2，学习率为10^{-5。优化器为AdamW，配置参数为，权重衰减为0.05，学习率采用线性预热策略，从10}-8增加至10^-5，随后进行余弦退火至最小学习率。模型在R2R和PREVALENT合成数据集的组合上训练，实验在NVIDIA A100 GPU上完成。

对照模型

本文评估了NavGPT-2与多种模型的性能差异。这些模型包括：

视觉-语言-行动预训练的VLN专家模型、
零样本方法、
微调大语言模型（LLMs）的方法、
基于DUET的基线方法。

结果与分析

性能提升

NavGPT-2FlanT5-XL (1.5B) 和 NavGPT-2FlanT5-XXL (5B) 在测试集上的表现优于其他零样本方法。

特别是，NavGPT-2FlanT5-XXL (5B) 在成功率（SR）上比NaviLLM（7B）高出3%，同时保持了生成自我解释导航推理的语言能力。

此外，NavGPT-2在成功率（SR）和路径效率得分（SPL）上分别比基线方法高出4%和2%，尽管没有结合VLN特定的预训练。

这些结果表明，NavGPT-2在整合视觉和语言信息进行导航决策方面具有显著优势。

导航推理生成

NavGPT-2能够生成详细的导航推理，识别环境和物体及其相对位置，并推断下一步操作。

数据效率

NavGPT-2在使用50%的R2R训练数据时，性能与使用全部数据的DUET相当，展示了利用LLMs潜在表示的数据效率。

跨数据集泛化能力

NavGPT-2在RxR和HM3D数据集上的零样本性能显著优于DUET，展示了其在自由形式语言指令和未见环境中的泛化能力。

总结

论文通过提出NavGPT-2系统，抹平了基于LLMs的导航模型与VLN专用模型之间的性能差距，同时保持了LLMs在导航过程中生成解释性导航推理的能力。

通过综合实验，展示了将LLMs与下游导航策略网络高效集成的可行性，证明了VLM潜在表示在视觉-语言-动作对齐中的优越性和效率。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述