论文:Disentangled Motif-aware Graph Learning for Phrase Grounding

作者
摘要由CSDN通过智能技术生成

作者

在这里插入图片描述

Abstract

在本文中,我们提出了一个新的图形学习框架,用于图像中的phrase grounding。已有的研究从顺序图模型发展到稠密图模型,虽然捕捉到了粗粒度的上下文,但没有区分短语和图像区域之间上下文的多样性。相比之下,我们特别关注场景图上下文中隐含的不同主题,并设计了解构图网络来将主题感知上下文信息集成到表示中。此外,我们在特征和结构层面上采取干预策略来巩固和概括表征。最后,利用跨模态注意网络融合模态内特征,计算每个短语与区域的相似度,选择最佳匹配的短语。我们通过一系列消融研究验证了分离和介入图形网络(DIGN)的效率,我们的模型在Flickr30K实体和ReferIt游戏基准上实现了最先进的性能。

Introduction

在给出一对 image-sentence pair时,Phrase Grounding(或者更一般地说,language Grounding)任务旨在将多个名词短语从给定的句子基础到相应的意象区域,如图2所示。通过将文本模态与视觉模态对齐,Phrase Grounding能够将两种模态的知识联系起来,并改进跨视觉问答、视觉常识推理和机器人导航的多模态任务。
由于图像通常包含的信息多于句子的信息,一般的解决方案是理解视觉对象周围的视觉上下文,特别是注意句子所考虑的上下文,然后将其映射到所指的词。然而,以前的研究没有考虑到这样的细粒度的上下文。一些方法忽略了视觉或文本语境的重要性,也没有独立地(Plummer等人2018年)或顺序地(Dogan等人2019年;Li等人2020年)对单个短语进行分类。当具有完全不同功能或动作的对象在同一图像中具有相似的视觉效果时,这会导致性能不佳。最近,Bajaj等人(2019年)和Liu等人(2020年)利用完全连通的稠密图来捕获视觉对象中的粗粒度上下文,并改进基础结果。
在这里插入图片描述
然而,他们的图表有三个致命的问题。首先,稠密图包含有噪声的假连接,并且在复杂场景中出错。第二,平等对待所有关系。在这种框架下,节点(即短语或可视对象)表示是所有可能关系的混合。事实上,在上下文信息中揭示节点之间的各种高阶关系类别或主题(例如,装饰、部分、空间、动作)是不够的。例如,如图1所示,“子对象”需要固定在包含多个相似对象区域的图像中。如上所述,语言图(图1左下方)只是视觉内容的子图。当我们学习稠密图(图1左上角)中“一个孩子”的表示时,很难在嘈杂的环境中对右侧区域进行grounding。在场景图(图1的右上角)中过滤虚假邻域后,也很难做出grounding决策,因为孩子周围有太多的冗余基序,使模型无法抓住关键基序。第三,数据集中存在一些共同出现的视觉对象,而一些不相关的共同出现的概率很高(Wang等人,2020),这会影响图形结构,最终损害模型的鲁棒性和泛化能力。
在这篇文章中,我们提出了一个更易于解释的phrase grounding框架——解耦干涉图网络(DIGN)。首先,我们使用两个场景图来模拟短语和区域之间的上下文,而不是使用完全连通的稠密图。然后,我们使用两个解耦图网络将这些不同的上下文集成到节点(即短语或视觉对象)的解耦维表示中。每个块称为motif感知嵌入,可以表示特定motif的强度(图1的右下角),这大大减少了虚假连接产生的噪声,并为以后的模间融合创建细粒度的模内表示。此外,我们还提出了干预性视觉样本合成训练方案,以缓解同时发生的偏差问题,提高模型的鲁棒性。

  • 我们的主要贡献有三个方面:
    1.我们设计了一种基于解耦图网络的motif感知图学习方法,该方法区分了不同的上下文,并考虑了细粒度的上下文融合。
    2.我们采用特征和结构干预策略来学习图中的鲁棒表示。
    3.我们进行了一系列实验,证明我们的DIGN模型比先前sota实现了更具竞争力的性能。

Related Work

有两种文献与我们的工作密切相关:phrase grounding和disentangling representation

Phrase Grounding

为了对图像中短语描述的空间区域进行定位,早期方法(Wang等人2016a、2018;Plummer等人2018;Akbari等人2019;Plummer等人2020)学习共享嵌入子空间并计算每个短语区域对的距离。上述方法独立地为每个短语打下基础,忽略了文本和视觉上下文信息。更进一步,RNN结构(Hu,Xu等,2016;Dogan等,2019)和Transformer模型(Li等,2020)用于捕捉短语和区域之间的上下文。为了制定更复杂和非顺序的依赖关系,图形体系结构(Bajaj et al.2019;Liu et al.2020)变得越来越普遍,并利用节点之间的关系来丰富表示和实现对齐。他们从整体的角度统一处理上下文,这导致了次优的表示和有限的可解释性。忽略了一个基本事实:将短语与区域联系起来会受到图形上下文中不同主题的影响。我们的模型在细粒度层次上分离上下文,并将感知主题的上下文合并到表示中。

Disentangling Representation

学习识别和解开隐藏在观察数据的观察环境中的解释性因素是人工智能的基础。早期尝试(Tishby et al.20002015)仅将信息瓶颈方法应用于捕获和提取相关或有意义的数据摘要。基于信息论概念,β-V AE(Higgins et al.2017)可以以完全无监督的方式学习独立视觉数据生成因素的分离表示。后来的研究(Burgess et al.2018;Chen et al.2018)在更细粒度的水平上进一步改进了分离因子学习。这些现有的工作是为了发现非关系数据上的不同潜在因素。最近,在图结构数据领域探索了分离表示学习(Ma et al.2019;Zheng et al.2020),其中大部分主要是分离推荐系统中常见的二部图中用户行为背后的潜在因素。这项工作的重点不仅是在模态内场景图中解开主题,而且在跨模态公共子空间中保持解开。phrase grounding的解耦图网络与之前的模块化方法MattNet(Yu等人,2018)有关,但它隐含着分配组块表示的意义,并且便于转移到其他任务

Approach

在这里插入图片描述

给定多个短语和相应的图像,我们将一组名词短语表示为 P = { p i } i = 1 n \mathcal{P}=\{p_{i}\}^{n}_{i=1} P={ pi}i=1n,将其空间区域(或边界框)表示为 B + = { b i + } i = 1 n \mathcal{B^+}=\{b^+_{i}\}^{n}_{i=1} B+={ bi+}i=1n,其中 b i = ( x 1 , y 1 , x 2 , y 2 ) b_{i}=(x_{1},y_{1},x_{2},y_{2}) bi=x1y1x2y2是左上和右下坐标。主要目标是从区域建议 B = { b i } i = 1 m ( m > > n ) \mathcal{B}=\{b_{i}\}^{m}_{i=1}(m>>n) B={ bi}i=1m(m>>n)中选择N个边界框,尽可能与Ground Truth注释 B + \mathcal{B^+} B+重叠,并获得ground结果。图2显示了我们的解耦介入图网络(DIGN)。该框架由四个阶段组成,在细粒度级别实现phrase grounding:1)短语和视觉特征encoding;2) 两个模态内解耦图网络;3) 视觉图形中的介入算子;4) 交叉模态transformer。

3.1 Phrase and Visual Encoders

每个短语由一个单词或一系列单词组成。对于短语特征,我们通过预先训练的BERT(Devlin et al.2019)将短语的每个单词编码为real-valued vector,然后通过取每个 p i p_{i} pi中单词嵌入的总和来计算短语表示。在视觉特征方面,我们使用region proposal network(Ren et al.2015)提取 top-M proposals with diversity and discrimination。在RoI-Align池的最后一个完全连接层之后表示每个项目(He等人,2017年)。要将短语和视觉特征转换为相同的维度,请使用 t i ∈ R d i n t t_{i}∈\R^{d^{t}_{in}} tiRdint v i ∈ R d i n v v_{i}∈\R^{d^{v}_{in}} viRdinv分别通过两个完全连接的层、ReLU激活函数和批处理规范化层获得。

3.2 Intra-Modal Graph Network

为了分离名词短语和region proposal之间的各种上下文,并提供明确的渠道来引导Motif感知信息流,我们在下面介绍两个模态内分离图网络。

Phrase Disentangled Graph

我们不使用嘈杂的密集图来捕捉语言上下文,而是通过现成的场景图解析器(Schuster ET al.2015)从包含短语的图像标题构建短语场景图 G T = ( E T , V T ) \mathcal{G}_{T}=(\mathcal{E}^{T},\mathcal{V}^{T}) GT

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值