Fried D, Hu R, Cirik V, et al. Speaker-follower models for vision-and-language navigation[C]//Advances in Neural Information Processing Systems. 2018: 3314-3325.
Abstract
![](https://img-blog.csdnimg.cn/20200306210125800.png#pic_center)
- Follower:根据自然语言描述description预测路径route
- Speaker:给定路径route生成指令description
- 翻译:自然语言指令指导下的导航任务为指令followers带来了挑战,自然语言指令通常仅识别一些高级的决策标志,而不是低级的运动行为,许多丢失的信息都必须通过感知上下文来推断。在机器学习环境中,这是一个双重挑战:收集足够多的标记过的数据保证推理过程的学习很困难,使用通用序列模型实现推理过程也很难。在这里,我们提出了一种方法在这些问题的基础上使用嵌入式speaker解决了视觉语言导航问题,用这个speaker模型实现对数据增加新的标记数据和实现实用性推理,并且speaker模型能够评估候选动作序列的优劣性。这两个步骤均由全景动作空间支持,该动作空间反映了人类生成指令的细粒度。实验表明,该方法的三个要