NeurIPS 2022《Weakly-Supervised Multi-Granularity Map Learningfor Vision-and-Language Navigation》阅读笔记

22 篇文章 42 订阅 ¥19.90 ¥99.00
本文介绍了在NeurIPS 2022会议上关于弱监督多粒度地图(WS-MGMap)在视觉-语言导航(VLN)中的应用。研究构建了多粒度映射,结合环境对象的细粒度细节和语义信息,通过弱监督对象定位任务学习地图表示。实验表明,这种方法提高了VLN在可见和不可见环境中的成功率,对比现有方法分别提升了4.0%和4.6%。
摘要由CSDN通过智能技术生成

1 Abstract and Introduction

主要内容:构建了能够准确表示环境对象的空间位置和语义信息的地图—WS-MGMap。

实施方法:

1)构建了一个多粒度映射来表示环境对象的细粒度细节(如颜色纹理)和抽象语义信息。

2)提出了一种弱监督对象定位辅助任务,代理从中学习多粒度信息来推断有区别的地图表示,而不需要手动地图注释。

结果:代理不仅可以定位与指令相关的导航对象,而且还被鼓励学习更好的地图表示,来表示对象信息。之后,将学习到的地图和指令提供给航路点预测器来确定下一个导航目标。实验表明,该方法在可见和不可见环境中的成功率分别比最先进的方法高出4.0%和4.6%。

VLN的弱监督多粒度映射(WS-MGMap)

首先,将现有的语义映射扩充为多粒度映射,如图1(b)所示。该映射包含不同的粒度信息,即分割模型识别的高级对象语义和低级对象细粒度细节。为获得低层次细节,使用工作【4】将高维分割模型的潜在特征投影到自上而下的映射中,这些潜在特征中包含丰富的物体细节如颜色、纹理和形状。

其次,为使上述得到的多粒度特征使映射更好地表示指令对象,提出了一个与指令相关的对象定位辅助任务,如图1(b)所示。具体来说,将地图表示和指令对象提供给定位器来预测这些对象的位置。我们不是手动

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初篱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值