Project webpage: https://ggeorgak11.github.io/CM2-project/
1 Abstract
目前大多数的视觉语言导航方法都是使用非结构化的内存(如LSTM)进行端到端训练,或者使用跨模态注意力对代理的自我中心观察进行训练。在这篇文章中,我们认为当视觉和语言发生在明确的空间表征时,它们之间的联系会加强。因此,我们提出一种用于视觉语言导航的跨模态地图学习()模型,该模型首先学习预测以自我为中心的地图上观察到和未观察到的区域的自上而下的语义,然后将通往目标的路径预测为一组路点。在这两种情况下,预测都是由语言通过跨模态注意机制提供的。
我们所提的方法将问题分解成语义和空间两条路径,如图1所示。
1)首先,使用跨模态注意力网络,通过输入的RGB-D和语言指令来学习预测语义图,主要用来学习代理视觉之外的信息。
2)然后,利用另一个跨模态注意力网络,该网络主要通过上一步的语义图和指令信息来学习路径轨迹在语义图上的表示。
通过这两个任务,可以得到被关注的目标对象在地图上的位置。
2 Approach
2.1 问题设置
采用连续环境中的视觉语言导航VLN-CE中的设置,代理可以访问以自我为中心的RGB-D观测,分辨