2022CVPR《Cross-modal Map Learning for Vision and Language Navigation》阅读笔记

22 篇文章 35 订阅 ¥19.90 ¥99.00

Project webpage: https://ggeorgak11.github.io/CM2-project/

1 Abstract

目前大多数的视觉语言导航方法都是使用非结构化的内存(如LSTM)进行端到端训练,或者使用跨模态注意力对代理的自我中心观察进行训练。在这篇文章中,我们认为当视觉和语言发生在明确的空间表征时,它们之间的联系会加强。因此,我们提出一种用于视觉语言导航的跨模态地图学习(CM^2)模型,该模型首先学习预测以自我为中心的地图上观察到和未观察到的区域的自上而下的语义,然后将通往目标的路径预测为一组路点。在这两种情况下,预测都是由语言通过跨模态注意机制提供的。

我们所提的方法将问题分解成语义和空间两条路径,如图1所示。            

1)首先,使用跨模态注意力网络,通过输入的RGB-D和语言指令来学习预测语义图,主要用来学习代理视觉之外的信息。

2)然后,利用另一个跨模态注意力网络,该网络主要通过上一步的语义图和指令信息来学习路径轨迹在语义图上的表示。

通过这两个任务,可以得到被关注的目标对象在地图上的位置。

2 Approach

2.1 问题设置

采用连续环境中的视觉语言导航VLN-CE中的设置,代理可以访问以自我为中心的RGB-D观测,分辨

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初篱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值