【CVPR2023】KERM:面向视觉语言导航的知识增强推理

文章提出KERM模型,利用知识库中的事实信息增强智能体的导航能力。KERM包含净化、事实感知交互和指令引导的聚合模块,能自动选择关键线索,提高动作预测准确性。实验在REVERIE、R2R和SOON数据集上验证了其有效性。
摘要由CSDN通过智能技术生成

3f322b48c57713c43a4fed1023bb3e37.png

来源:专知
本文为论文介绍,建议阅读5分钟本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。

fd3eb19d24e01feee8e485cb50984cba.png

视觉-语言导航(VLN)是使具身智能体在真实场景中按照自然语言指令导航到远程位置的任务。以往的方法大多利用整个特征或以对象为中心的特征来表示可导航的候选特征。然而,这些表示不足以使智能体执行动作以到达目标位置。由于知识提供了与可见内容相补充的重要信息,本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。具体来说,首先从构建的知识库中检索基于局部区域的导航视图的事实(即语言描述的知识);检索到的事实范围从单个对象的属性(如颜色、形状)到对象之间的关系(如动作、空间位置),为VLN提供了重要信息。进一步提出了KERM,包含净化、事实感知交互和指令引导的聚合模块,以集成视觉、历史、指令和事实特征。所提出的KERM可以自动选择和收集关键和相关的线索,获得更准确的动作预测。在REVERIE、R2R和SOON数据集上的实验结果验证了所提方法的有效性。源代码可以在https://github.com/XiangyangLi20/KERM上找到。

ee4093d5a140b1d55af21821a088b51f.png

74346e0719cf0ce5fb8b37b6027b9241.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值