COLING&ECCV2022 | 视觉语言导航中方向和视觉解耦

每天给你送来NLP技术干货!


来自:复旦DISC

在视觉语言导航(VLN)任务中,需要智能体感知自身的朝向和环境中的视觉信息,遵循给出的语言指令完成导航任务。在经典的模型方法中,朝向特征往往被编码为一个向量与视觉图像向量合并后视作一种特征信息用于后续推理。本次DISC小编将分享COLING2022和ECCV2022的两篇论文,这两篇论文都意识到了将朝向和图像向量拼接处理的简单操作是不足够的,它们都提出了解耦方法,但它们使用了不同的方法分别提高朝向(orientation)和视觉(vision)分支的性能。

点击这里进群—>加入NLP交流群

文章概览

1.视觉语言导航中学习方向和视觉信号(LOViS: Learning Orientation and Visual Signals for Vision and Language Navigation)

本文设计了一个拥有显式方向模块和视觉模块的智能体,这些模块学习将语言指令中提及的空间信息、地标(landmark)信息与视觉环境对齐。另外,为了加强智能体的空间推理能力和视觉感知能力,本文设计了特定的预训练任务去提升每个模块的性能。本文在R2R和R4R数据集上评测了提出的方法,并在两个数据集上都达到了SoTA效果。

论文地址:https://arxiv.org/pdf/2209.12723.pdf

2.视觉语言中根据解耦标签学习解纠缠(Learning Disentanglement with Decoupled Labels for Vision-Language Navigation )

本文首先人工补充了R2R数据集的地标和动作感知标签,以期提供每个视点更细粒度的信息。另外,本文提出了一种解耦标签生成模块来为增广数据训练和强化学习阶段提供伪标签。而为了利用人工标注的每视点的地标和动作标签,本文设计了一个解耦解码模块来处理不同种类的特征并帮助对齐多模态。本文将提出的方法应用在LSTM基底和Transformer基底的基准模型上,在R2R和R4R数据集上的实验结果达到了SoTA效果。

论文地址:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136960305.pdf

论文细节

a7aff4532f50cfa0ed32f120161abbed.png

动机

本文作者观察到在视觉语言导航任务中,智能体的理解语言指令中两种信息的能力非常重要,分别是语言指令中的方向信息和地标信息,在决策过程中往往根据两者之一的信息就足以作出当前应该执行动作的推理。但是,先前的模型方法都是直接将方向信息和视觉信息合并后一起编码,这样的设计比较粗糙。作者认为需要设计独立的方向编码模块和视觉编码模块分别关注语言指令中的方向信息和地标信息,也即将两类信息解耦处理。

e494221df94e44b00688c23dca48baf0.png

图1:导航智能体的两种能力。

主要方法

本文设计了独立的Orientation Module和Vision Module分别用于编码方向信息和视觉信息,辅助History Module进行导航决策。为了提升Orientation Module和Vision Module理解方向和地标信息的能力,使其真正做到各司其职,作者引入了预训练方法。

整体模型主要包含History Module,Orientation Module和Vision Module三个模块,为了便于后续对各模块的预训练,三个模块均采用了类似PREVALENT预训练模型的结构,即多模态信息编码后经过一个Cross-Modality Transformer,它们的区别在于各自模块的信息输入不同。History Module将图像和方向信息合并后编码,Orientation Module只编码方向信息,Vision Module只编码视觉信息。三个模块的输出(全局状态对每个候选节点方向的注意力分数)都可以作为决策的依据,融合后进行决策。LOViS模型结构如下图所示。

00bb7de78f5058b10c1803cd2aaad212.png

图2:LOViS模型包含三个模块,历史模块、方向模块和视觉模块。

本文使用了四种预训练任务来提升三个模块的性能,其中MLM和SSAP是先前流行的预训练任务,本文对其做了改进,VM使用对比学习促进模态对齐,OM则是全新的促进方向信息理解的预训练任务。所有预训练任务如下图所示。

81f5d57ddd93bb1561fb2721aa2ecaa0.png

图3:有特定预训练任务的预训练模块。

Masked Language Modeling(MLM)

不同于以往随机遮盖单词的做法,此处随机遮盖方向单词和地标单词,并尝试通过其它单词以及在每一步的朝向和视觉观察来复原这些遮盖词。本文抽取语言指令中的名词作为地标单词,使用一个在R2R数据集上建立的方向字典获得方向单词。

Single Step Action Prediction(SSAP)

在导航的每一步根据[CLS]标记对候选节点方向视图的注意力分数分布,预测下一步动作。

Vision Match(VM)

为了促进语言指令中的地标和视觉图像中的物体的对齐,使用对比学习进行预训练。具体来说,将文本图像对中真实匹配的图像替换成来自其它环境的图像,由此制作负样本集。通过vision module分别预测正负样本对的匹配分数。

Orientation Match(OM)

此任务基于语言指令和初始的朝向,预测导航当前步的朝向。将orientation module输出的[CLS]表征通过一个全连接层预测4位朝向特征。

实验结果

本文分别在R2R和R4R数据集上评测。

R2R建立在Matterport3D数据集的基础上,拥有7198条导航路径和对应的21567条语言指令。整个数据集被切分成训练集、可见验证集、不可见验证集和不可见测试集。可见(Seen)设置表示使用训练集中出现过的视觉环境,不可见(Unseen)设置表示使用训练集中没出现过的视觉环境。

R4R扩展了R2R数据集,通过连接R2R中头尾接近的两条路径来获得更长的语言指令和导航路径对。

VLN任务使用的主要评测指标有导航误差(NE),成功率(SR),路径长度加权的成功率(SPL),用于衡量推理路径与真实路径匹配程度的指标CLS,nDTW,sDTW等。

表1:R2R基准数据集上与基准模型比较的实验结果。

0b56c86dfb5c4c56943813d1457ff7c5.png

表2:R4R基准数据集上与基准模型比较的实验结果。

6a2aaeae6c16d9bffdf21b0c62c0c0ee.png

由上述两表可以发现,无论在R2R或R4R上,本文提出的模型方法均取得了SoTA结果,且解耦的模型架构和改进的预训练方法均对性能有提升效果。

表3:基准和LOViS上施加不同预训练任务的消融实验。

a818281e57b926265975db41254e183e.png

表3总结了不同预训练任务的消融实验,可以发现无论是对何种模型,每项预训练任务均对性能有提升效果,且提升效果对适配的LOViS模型更显著。其中,单独的使用VM或者OM对性能提升均非常有限,当同时使用这两种预训练任务时,性能提升更加显著,说明了两种任务可以互相弥补,通过方向信息决策和视觉信息决策的两分支协同完成导航决策任务。

表4:模型中使用不同模块的消融实验。H:历史模块,O:方向模块,V:视觉模块。

a2fb90064f3c6f090aba0856aa2e9094.png

表4总结了不同功能模块的消融实验,可以得到相似的结论。每个功能模块对性能提升都有贡献,且orientation module和vision module两个模块可以互相弥补。

da6a5a2cce6d037225b0942d6763de0f.png

动机

本文作者观察到R2R数据集中的语言指令实际上包含两类信息,分别是表示动作(action)和地标(landmark)的信息,作者认为解耦这两类信息并独立处理可以给模型提供更精确和清晰的输入。另外,促进语言指令和导航路径细粒度的对齐也是一个重要的手段,以往的模型往往只考虑了整条语言指令和导航路径的匹配,作者希望促进每一个视点的视觉图像和语言指令中确切信息片段的对齐,从而使得智能体在导航过程中能够获得更精确的语言指令指导。

cedc32de5e2ea9f44e411834ab933ecc.png

图4:在导航过程中提供中间监督的解耦标签的说明。指令中词汇的上标表示每个视点的地标和动作标签。

主要方法

遵循上述思想,本文首先额外标注了R2R数据集,给出了解耦的地标信息和动作信息,并提供了更加细粒度的监督。具体来说,在LAR2R中,导航路径上的每一个视点都对应了在该视点应该要关注的语言指令确切的动作信息片段和地标信息片段,用于决定下一步的动作。下图展示了LAR2R标注的一个示例,每一视点对应了语言指令中的某些单词。

a8f37d1cf0f8243b62527b5dca5184f5.png

图5:LAR2R中拥有特定地标和动作感知子指令的导航。

本文设计了一种解耦解码模块来利用LAR2R标签,完整的模型架构如图6所示。首先使用现有的VLN模型编码语言和视觉观察信息,此时方向特征和视觉特征不解耦,即将方向向量和图像向量拼接后一并处理。在解耦解码模块,除了视觉和方向表征,沿用Transformer编码结果,并制作投影后的视觉表征和方向表征,分别输入两个BERT模块,独立处理两类信息。最后的决策层会综合考虑两个分支的输出(全局状态对每个候选节点方向的注意力分数)后作出动作决策。

b8eb1eb0ab2fe955ba529ebbb0c6a71b.png

图6:以Transformer为基底的解耦解码模块概览。

另外,本文设计了一种语言辅助损失来加强语言和视觉的细粒度匹配。在已经给出每个视点下应当关注到的确切语言指令范围标签的情况下,本文利用标签去监督全局状态对语言指令中每个单词的注意力分数,希望视觉解耦分支将注意力完全放在当前视点对应的地标单词上,方向解耦分支将注意力完全放在当前视点对应的动作单词上。具体辅助损失计算如下所示:

其中T表示导航步数,L表示指令长度,γ和σ表示在每一时刻t预测的第j个单词的地标或动作注意力分数。x和y是二元标签,被赋予值1当且仅当第j个单词在时刻t需要被视觉分支和方向分支关注。

在计算辅助语言损失时,LAR2R标签只有在使用模仿学习时可以生效,在使用强化学习和增广数据集时,会产生大量R2R数据集以外的导航路径,这些导航路径没有事先标注LAR2R标签,此时无法计算上述语言损失。因此,本文设计了一个Decoupled Label Speaker模型,能够根据语言指令和视觉观察来给出每一步应当关注的动作伪标签和地标伪标签。Speaker模型架构如图7所示。将语言指令和图像序列分别编码后计算每一步的视觉图像表征对语言指令中单词的注意力分数,使用有限的LAR2R数据集进行监督训练。训练结束后,在解耦解码模块中使用时固定权重,为未标注的新路径提供伪标签。

28190d657bd391e95d72f3dc3b4d3f7f.png

图7:解耦标签生成器(DLS)的架构。

实验结果

本文分别在R2R和R4R数据集上评测。

R2R建立在Matterport3D数据集的基础上,拥有7198条导航路径和对应的21567条语言指令。整个数据集被切分成训练集、可见验证集、不可见验证集和不可见测试集。可见(Seen)设置表示使用训练集中出现过的视觉环境,不可见(Unseen)设置表示使用训练集中没出现过的视觉环境。

R4R扩展了R2R数据集,通过连接R2R中头尾接近的两条路径来获得更长的语言指令和导航路径对。

VLN任务使用的主要评测指标有导航误差(NE),成功率(SR),路径长度加权的成功率(SPL),用于衡量推理路径与真实路径匹配程度的指标CLS,nDTW,sDTW等。

表1:R2R基准数据集上与基准模型比较的实验结果。

4c42d52f1fec34dbb49d8200b12d56de.png

表2:R4R基准数据集上与基准模型比较的实验结果。

4846ec9bd1b756ee1c4512afe45086b6.png

由上述两表可以发现,无论在R2R或R4R上,无论基于LSTM-based模型或Transformer-based模型,本文提出的DDL模型方法均可以提升模型性能,达到了SoTA结果。

总结

本次Fudan DISC小编分享的两篇论文均从解耦方向和视觉特征这个想法出发提出了自己的模型方法,两篇论文的方法都能有效提升模型性能。第一篇论文在解耦两类特征之后使用专注于提升特定能力的预训练方法来提升各分支的性能,无需额外的标注数据集,方法简单且有效。第二篇论文则额外关注了细粒度的导航指令,使用人工标注数据来提升两类特征提取分支的性能,具体手段是在训练过程中监督对语言指令的注意力分布,思想方法更加复杂但是效果更好。

供稿:吴斌浩

编辑:吴斌浩

责编:梁敬聪


供稿人:吴斌浩 | 硕士生一年级 | 研究方向:视觉与语言、仿真学习 | 邮箱:22210980115@m.fudan.edu.cn

最近文章


深入理解Pytorch中的分布式训练


点击这里进群—>加入NLP交流群
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值