Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigatio

本文提出了一种名为RCM的强化学习方法,用于解决视觉语言导航任务中的跨模态匹配、反馈不确定性和模型泛化问题。RCM结合推理导航和匹配评论家,通过内部和外部奖励实现更精确的跨模态grounding。同时,通过自监督模仿学习(SIL)提升模型在未知环境中的泛化能力。实验结果表明,RCM在R2R数据集上取得了最先进的性能,并且SIL能有效缩小未知与已知环境之间的差距。
摘要由CSDN通过智能技术生成

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation. CVPR,2019

摘要

  • Vision-language navigation(VLN)任务是一项令一个在真实3D环境中的智能体按照给定的自然语言指令进行导航移动的任务。在这篇文章中,我们研究如何解决这个任务中的三个关键问题:跨模态的grounding,不适定反馈和模型泛化问题。首先,我们提出了一个基于强化学习的跨模态匹配(RCM)方法,使用RL强制对局部和全局之间的跨模态信息进行grounding。具体地,使用一个匹配度评论家提供内部奖励以鼓励在轨迹和指令之间的全局匹配,再使用一个推理导航员在局部区域内执行跨模态的grounding。在一个经典的VLN基准数据集上测试我们的RCM方法,得到了比之前工作高10%SPL的结果,实现了新的sota表现。为了提高学习策略的泛化能力和通用型,我们还介绍了SIL模型以探索在位置环境中模型模仿过去经验以生成好的决策结果。我们得出结论,SIL在处理未知和已知环境时可以极大化的最小两者差距,得到一个更好更有效的策略。(从30.7%到11.7%)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值