Speaker-Follower Models for Vision-and-Language Navigation论文翻译

最新推荐文章于 2024-02-29 11:04:07 发布

卑微如尘埃

最新推荐文章于 2024-02-29 11:04:07 发布

阅读量1.3k

点赞数

分类专栏： VLN 文章标签： VLN 多模态深度学习

论文：https://arxiv.org/abs/1806.02724
代码：http://ronghanghu.com/speaker_follower.

1 介绍

模型包括一个指令解释(follower)模块，将指令映射到动作序列;和一个指令生成(speaker)模块，将操作序列映射到指令(图1)，两者都使用标准的sequence-to-sequence架构实现。speaker学习为视觉路线提供文本指令，而follower学习为提供的文本指令遵循路线(预测导航动作)。虽然将speaker和follower结合起来的显式概率推理是计算语用学[14]文献的主要内容，但这些模型的应用在很大程度上仅限于非常简单的决策任务，比如单个强迫选择。

图一：视觉语言导航的任务是根据人类自然语言指令执行一系列动作(在环境中导航)。我们的方法由一个指令follower模型(左)和一个speaker模型(右)组成。

我们在培训时和测试时都包含了speaker，它与学习指导的follower模型一起工作来解决导航任务(参见图2了解我们的方法)。在训练时，我们执行speaker-driven的数据增强，speaker通过合成额外的路线指令对来帮助follower扩展有限的训练数据。在测试时，follower通过展望未来可能的路线来提高成功的机会，并根据speaker为每条路线生成正确指令的概率来务实地选择最佳路线。这个过程，使用external speaker模型，改进了计划只使用follow模型。在全景动作空间的顶部，我们可以同时构造speaker和follower，从而有效地编码高级行为，直接在相邻位置之间移动，而不是做出旋转角度等低级视觉运动决策(参见图3)。

总结我们的贡献:我们提出了一种新的视觉和语言导航方法，其中包含一个基于视觉的speaker-follower模型，并引入一个全景表示来有效地表示高层操作。我们在房间对房间(R2R)数据集[1]上评估了这个演讲者-跟随者模型，并表明我们模型中的每个组件在执行后续任务时都提高了性能。我们的模型在不可见的测试环境下获得了53.5%的最终成功率，比现有方法提高了30%。我们的代码和数据可以在http://ronghanghu.com/speaker_follower上找到。

2 相关工作

Natural language instruction following

学习在交互环境中执行自然语言指令的系统包括基于语言的中间结构化和可执行表示的方法[51、9、4、29、20]，以及直接从语言和世界状态观察映射到操作的方法[7、2、33、34]。本文研究的嵌入式视觉语言导航任务不同于以往的情境教学任务，它引入了丰富的视觉语境。最近的工作[55]已经将基于模型和无模型的强化学习[56]技术应用于视觉和语言导航问题。具体地说，环境模型用于预测由某个操作产生的状态的表示，并针对该环境模型执行规划。我们的工作与之前的工作的不同之处在于，我们不仅对状态转换进行了推理，还对状态与描述它们的语言之间的关系进行了推理——具体地说，使用 external speaker模型来预测给定的状态序列如何解释一条指令。

Pragmatic language understanding

语言学、自然语言处理学和认知科学一直在研究语用学:语境和交际目标对语言意义的影响。我们这里的工作利用了Rational Speech Acts framework[14,17]，该框架将speakers和listeners之间的交互建模为一个过程，其中每个代理都对另一个代理进行概率推理，以最大限度地提高成功交际结果的机会。这一框架已被应用于人类语言[15]，并提高了生成[3,31,53,12]和解释[58,30,52]参考语言系统的性能。类似的建模工具最近也被应用于生成和解释有关顺序决策的语言[16]。本文运用了一种实用主义的教学跟随者的精神。然而，在这里，我们将其与更复杂的可视化管道集成在一起，不仅在推理时使用它，而且在训练时使用它来改进基本listener模型的质量。

Semi-and self-supervision

我们使用的半监督方法与模型引导技术有关，如自训练[43,32]和高层次的联合训练[6]。最近的研究使用单语语料库来改进神经机器翻译模型的性能，其结构类似于我们使用的序列到序列模型[19,21,44]。在地面导航环境中，[22]使用单词预测任务作为增强学习代理的训练时间监控。与我们的工作最相关的方法是SEQ4模型[27]，它通过采样新的环境和地图(在没有视觉的合成域中)，并训练一个自动编码器使用语言作为潜在变量来重建路线，从而对导航任务应用半监督。这里使用的方法要简单得多，因为它不需要构造解码目标的可微代理。

半监督数据增强在计算机视觉任务中也得到了广泛的应用。在Data Distillation[40]中，通过对未加注释的图像进行综合和细化预处理模型预测，得到了用于目标和关键点检测的附加注释。在多智能体强化学习中，敌对智能体群体的自我游戏是常见的[45,47]。在强化学习的行为-批评方法中[49,50]，a critic学习the value of state，并在训练过程中用于监督行为者的政策。在这项工作中，我们使用一个speaker对未标记的新路线合成额外的导航指令，并使用该合成数据从speaker培训follower。

Grounding language in vision

现有的视觉基础研究[39,31,26,41,36]解决了被动感知静态图像并将引用表达式映射到一个丰富的框或分割掩码[25,28,57]，探索了各种技术难题，包括生成提案[10]和关系处理[54,36,24,11]。在我们的工作中，视觉和语言导航任务要求agent积极地与环境交互，根据自然语言指令找到通向目标的路径。这可以看作是语言学中的一个基础问题，语言教学根植于环境的轨迹中，但需要更多的推理和规划技能，而不是参照表达的基础。

3 使用Speaker-Follower模型执行指令

为了解决遵循自然语言指令的任务，我们依赖于两个模型:前面工作中考虑的那种指令follower模型和speaker模型—— 一个学习指令生成器，用于模拟人类如何描述导航任务中的路径)。

具体地说,我们的follower模型基于sequence-to-sequence模型[1],计算一个分布 $P_{F} (r | d)$ ，路线r(状态和行动序列)由路线描述d给出。follower用LSTM编码一连串用来描述路线的词[23],并且使用一个注意力机制描述输出路线行动顺序[5]。我们的speaker模型是对称的，通过使用LSTM对路线中的可视观察和操作序列进行编码，生成一个分布 $P_{S}(d | r)$ ，然后使用带attentino的LSTM解码器对编码的输入路线进行解码，逐字输出一条指令(图1)。

我们将这两个基本模型结合到一个speaker-follower系统中，在这个系统中，speaker在训练时和测试时都支持follower。图2给出了我们的方法的概述。首先，我们根据可用的地面真值导航路线和指令训练speaker模型。(图2 (a))。在训练follower之前，speaker为训练环境中的新采样路径生成合成导航指令，然后作为对follower的额外监视，如第3.1节所述 (Figure2 (b))。在follower测试时，follower生成可能的路径来解释给定的指令和起始上下文，speaker用实际的方法对这些路径进行排序，选择一个能够很好地解释上下文中的指令的路径(第3.2节和图2 ©)。第3.3节中的全景操作空间支持folloqwe和speaker，它反映了导航指令的高级粒度(图3)。

3.1 Speaker-Driven Data Augmentation

训练数据只涵盖有限数量的导航指令和路线，# $D = （d^{_{1}},r _{1}）...(d_{n},r _{n})$ .为了使agent更好地推广到新的路线，我们使用speaker在训练环境中对采样的新路线生成合成指令。为了创建一个综合训练集，我们对M个路线集合 $\hat{r}_{1},\hat{r}_{2},...\hat{r}_{M}$

最低0.47元/天解锁文章

卑微如尘埃

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Speaker-Follower Models for Vision-and-Language Navigation论文翻译

1 介绍模型包括一个指令解释(follower)模块，将指令映射到动作序列;和一个指令生成(speaker)模块，将操作序列映射到指令(图1)，两者都使用标准的sequence-to - equence架构实现。speaker学习为视觉路线提供文本指令，而follower学习为提供的文本指令遵循路线(预测导航动作)。虽然将speaker和follower结合起来的显式概率推理是计算语用学[14]...
复制链接

扫一扫