2020ECVV《VLN-CE》阅读笔记

VLN-CE是一个在连续3D环境中进行语言引导导航的任务,模拟了更接近真实世界的环境,其中代理需要执行一系列低级动作。文章介绍了从基于导航图的房间到房间任务到VLN-CE的转变,提出了一种简单的序列到序列基线模型和跨模态注意力模型。实验部分展示了模仿学习、数据增强和进度监控等技术对模型性能的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 Abstract and Introduction

1.在连续的3D环境中开发了一个语言引导的导航任务集,在该环境中,代理必须执行低级操作以遵循自然语言导航方向。具体来说,放弃了已知环境拓扑、短距离oracle导航和完美代理本地化的假设,使得环境更加接近现实环境。

2.为将任务具体化,开发了一个简单的序列到序列的基线架构以及一个基于跨模态注意力的模型。

为VLN-CE任务开发模型架构,并评估一套单输入消融,以评估设置的偏差和基线。

3.之前工作的理想假设

 (1)已知拓扑。仿真环境离散,与实际环境不匹配。

 (2)Oracle导航。在导航图中相邻节点之间移动,节点之间的移动类似于传送。

 (3)完美的定位。代理在任何时候都会得到他们的准确位置和航向(大多数工作都使用这些数据来编码导航图中节点之间的精确几何结构,或使用精确的代理定位来构建环境的空间图),事实上,室内精确定位仍然是一个挑战。

4.连续环境中的视觉语言导航(VLN-CE)

该任务中的代理可以通过一系列低级动作(如向前移动0.25米,向左转15度)自由导航到任何无障碍点,而不是在固定节点之间传送。并且代理会面临更长的时间范围、平均动作数为55个左右,代理一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初篱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值