【CVPR2023】KERM:面向视觉语言导航的知识增强推理

最新推荐文章于 2024-02-27 10:18:34 发布

数据派THU

最新推荐文章于 2024-02-27 10:18:34 发布

阅读量409

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247598796&idx=4&sn=ce75e1ae5b09d2f8dce69bf1882c1686&chksm=e9e04b47de97c2510e17ecaf6e5526cef60efc506f306c1d435ca333fc1db3db36a0fe141812&scene=126&sessionid=0

版权

文章提出KERM模型，利用知识库中的事实信息增强智能体的导航能力。KERM包含净化、事实感知交互和指令引导的聚合模块，能自动选择关键线索，提高动作预测准确性。实验在REVERIE、R2R和SOON数据集上验证了其有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：专知
本文为论文介绍，建议阅读5分钟本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。

视觉-语言导航(VLN)是使具身智能体在真实场景中按照自然语言指令导航到远程位置的任务。以往的方法大多利用整个特征或以对象为中心的特征来表示可导航的候选特征。然而，这些表示不足以使智能体执行动作以到达目标位置。由于知识提供了与可见内容相补充的重要信息，本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。具体来说，首先从构建的知识库中检索基于局部区域的导航视图的事实(即语言描述的知识);检索到的事实范围从单个对象的属性(如颜色、形状)到对象之间的关系(如动作、空间位置)，为VLN提供了重要信息。进一步提出了KERM，包含净化、事实感知交互和指令引导的聚合模块，以集成视觉、历史、指令和事实特征。所提出的KERM可以自动选择和收集关键和相关的线索，获得更准确的动作预测。在REVERIE、R2R和SOON数据集上的实验结果验证了所提方法的有效性。源代码可以在https://github.com/XiangyangLi20/KERM上找到。