1 Abstract and Introduction
1.在连续的3D环境中开发了一个语言引导的导航任务集,在该环境中,代理必须执行低级操作以遵循自然语言导航方向。具体来说,放弃了已知环境拓扑、短距离oracle导航和完美代理本地化的假设,使得环境更加接近现实环境。
2.为将任务具体化,开发了一个简单的序列到序列的基线架构以及一个基于跨模态注意力的模型。
为VLN-CE任务开发模型架构,并评估一套单输入消融,以评估设置的偏差和基线。
3.之前工作的理想假设
(1)已知拓扑。仿真环境离散,与实际环境不匹配。
(2)Oracle导航。在导航图中相邻节点之间移动,节点之间的移动类似于传送。
(3)完美的定位。代理在任何时候都会得到他们的准确位置和航向(大多数工作都使用这些数据来编码导航图中节点之间的精确几何结构,或使用精确的代理定位来构建环境的空间图),事实上,室内精确定位仍然是一个挑战。
4.连续环境中的视觉语言导航(VLN-CE)
该任务中的代理可以通过一系列低级动作(如向前移动0.25米,向左转15度)自由导航到任何无障碍点,而不是在固定节点之间传送。并且代理会面临更长的时间范围、平均动作数为55个左右,代理一路上收到的视图是其自身行动的结果,行走的同时还要学会避免被障碍物卡住,同时,代理的位置或航向不是已知的。
2 VLN-CE
给定自然语言导航指令,代理必须在连续的3D环境中通过仅基于自我中心感知执行一系列低级动作来从起始位置导航到所描述的目标。总之,我们通过将基于导航图的房间到