Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigatio

最新推荐文章于 2022-10-21 16:12:33 发布

yyyyyyyyXu

最新推荐文章于 2022-10-21 16:12:33 发布

阅读量867

点赞数

分类专栏：阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40711769/article/details/104735036

版权

本文提出了一种名为RCM的强化学习方法，用于解决视觉语言导航任务中的跨模态匹配、反馈不确定性和模型泛化问题。RCM结合推理导航和匹配评论家，通过内部和外部奖励实现更精确的跨模态grounding。同时，通过自监督模仿学习（SIL）提升模型在未知环境中的泛化能力。实验结果表明，RCM在R2R数据集上取得了最先进的性能，并且SIL能有效缩小未知与已知环境之间的差距。

摘要由CSDN通过智能技术生成

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation. CVPR,2019

摘要

Vision-language navigation（VLN）任务是一项令一个在真实3D环境中的智能体按照给定的自然语言指令进行导航移动的任务。在这篇文章中，我们研究如何解决这个任务中的三个关键问题：跨模态的grounding，不适定反馈和模型泛化问题。首先，我们提出了一个基于强化学习的跨模态匹配（RCM)方法，使用RL强制对局部和全局之间的跨模态信息进行grounding。具体地，使用一个匹配度评论家提供内部奖励以鼓励在轨迹和指令之间的全局匹配，再使用一个推理导航员在局部区域内执行跨模态的grounding。在一个经典的VLN基准数据集上测试我们的RCM方法，得到了比之前工作高10%SPL的结果，实现了新的sota表现。为了提高学习策略的泛化能力和通用型，我们还介绍了SIL模型以探索在位置环境中模型模仿过去经验以生成好的决策结果。我们得出结论，SIL在处理未知和已知环境时可以极大化的最小两者差距，得到一个更好更有效的策略。（从30.7%到11.7%）

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。