读论文 Improving Vision-and-Language Navigation by Generating Future-View Image Semantics(cvpr2023)

Improving Vision-and-Language Navigation by Generating Future-View Image Semantics(cvpr2023)

研究背景:视觉语言导航任务要求代理根据自然语言指令在环境中导航。传统方法依赖于当前视图和指令特征来预测下一步动作,但在复杂和动态的环境中,这种方式往往难以保证导航的准确性。为此,作者提出了一个新颖的方法,即通过生成未来视图的语义信息来帮助代理更好地理解和执行导航指令。这个想法基于人类在导航时通常会根据指令和周围环境来预期未来的视图,以此指导前进方向。  

源码:https://github.com/jialuli-luka/VLN-SIG    

数据集:Room-to-Room (R2R) CVDN(CrossView Dialogue Navigation)

传统的导航方法可能依赖于事先标注好的地标或地图,但该研究中的方法并不依赖这些。相反,地标参考物是在导航过程中动态生成和确定的。这意味着系统不会事先告诉代理“这是一个地标”,而是代理在导航过程中通过模型的学习和推断自行识别出地标。

参考物选取与确定

语义匹配与地标识别:在生成未来视图时,系统通过语义匹配来识别指令中提到的地标。例如,如果指令提到“在红色建筑物旁边右转”,模型会在未来视图中寻找红色建筑物,并将其作为参考物。 动态选择与调整:在导航过程中,模型会不断对比当前视图与未来视图。如果发现某个地标在当前视图中出现,则确认该地标作为参考物。模型可以根据环境的变化重新生成未来视图,并动态调整参考物的选择

指令生成

未来视图生成与指令生成:通过APIG任务,模型基于当前的观察和未来视图的预测,生成下一步的导航指令。例如,如果模型预测到未来会遇到一个关键的转弯点,模型就会生成相应的指令如“向右转”。

实时导航决策:模型不断生成和验证未来视图,并根据实际情况调整导航指令。这些指令是逐步生成的,并随着导航进展动态调整,确保导航路径的准确性和有效性。

1. 图像语义计算

Image Tokenizer:系统首先通过Image Tokenizer将输入的全景图像划分成多个图像块(patches)。每个图像块包含了一部分的环境视觉信息。 Codebook Selection:每个图像块被编码后,与预定义的码书(codebook)中的视觉概念匹配。这个步骤选择了最能代表每个图像块的视觉特征。 Patch Semantic Calculation:选择的codebook向量用于计算每个图像块的语义特征,这些特征被合并为整体图像的语义表示(Image Semantics)。

2. 训练生成图像语义

模型通过以下三个任务学习生成图像语义并进行指令生成。 MPM:部分全景图像被遮盖(masked)。模型需要基于未遮盖的部分推测被遮盖部分的视觉语义信息(Masked View Semantics)。通过这个任务,模型学会如何在信息不完整的情况下推断出完整场景的语义。 MTM:导航路径的某些步骤被遮盖(masked),模型需要通过历史导航信息来推测这些缺失的步骤。这帮助模型学习如何在导航路径中选择关键的步骤和地标,并生成合理的导航路径语义(Masked Step Semantics)。 APIG:模型基于生成的未来视图(Next Step Semantics)预测下一步的导航动作。这个任务直接涉及指令生成,模型通过理解未来环境来决定接下来的行动,例如“向右转”或“直行”。

3. 跨模态Transformer

这一部分的Transformer架构负责将文本、历史和观察信息结合起来,用于生成未来视图语义和导航指令。 Text Encoding:自然语言指令被编码为文本向量,用于与视觉信息结合。 History Encoding:模型对之前的导航步骤进行编码,这些信息帮助模型理解当前导航状态和历史轨迹。 Observation Encoding:模型对当前的视觉输入进行编码,并与文本编码和历史编码结合,形成完整的环境理解。

MTM的目的是让模型学习如何从部分遮挡的导航轨迹中推断出被遮挡的部分,这有助于模型在缺少部分路径信息的情况下仍能做出合理的导航决策。 Cross-Modality Transformer:这个部分使用跨模态Transformer来处理输入的文本编码、历史编码和观察编码。输入包括自然语言指令(例如“Walk forward... [SEP]”)以及当前观察到的场景。图中显示了在路径中间有一部分被遮盖(<MASK>),模型的任务是推断出被遮盖部分的语义。

MPM旨在让模型学习如何从部分遮挡的全景图像中推断出被遮挡部分的视图语义。这增强了模型在缺少完整视图时仍能理解整个场景的能力。

Cross-Modality Transformer:类似于MTM任务,这里也是使用跨模态Transformer来处理输入的文本编码和视觉信息。输入包括文本指令和部分被遮盖的全景图像(例如中间的一部分被遮盖)。模型需要推测出被遮盖部分的视图语义。

APIG让模型在生成未来视图的基础上,预测下一步的导航动作。这个任务直接涉及导航指令的生成,是实际导航中关键的一步。 Cross-Modality Transformer:Transformer接收来自文本编码、历史编码和观察编码的输入,并结合这些信息来生成未来的视图语义。基于这些语义信息,模型预测出下一步的行动。这一过程模拟了实际导航中的决策过程。

Target Semantics Calculation Image Tokenizer:首先,输入的全景图像通过Image Tokenizer被分割成多个小的patches,这些patches代表了环境中的不同部分。

Codebook Selection:每个图像块被映射到预定义的codebook中的视觉特征向量。codebook中的每个向量代表一个特定的视觉概念。模型通过选择最接近的向量,来表征每个图像块的语义信息。 Overall Semantic Calculation:最终,所有图像块的语义信息被综合,计算出整体图像的语义表示。这一表示是后续导航决策的基础,帮助模型理解当前和未来的环境。

附原文翻译的重点内容 

  • 25
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值