论文:Linguistic Structure Guided Context Modeling for Referring Image Segmentation

该研究提出了一种名为Linguistic Structure Guided Context Modeling (LSCM)的新方法,用于解决参照图像分割问题。LSCM模块通过“收集-传播-分布”策略,利用依赖解析树抑制词图(DPT-WG)指导有效多模态上下文的建模,从而区分指称对象和背景。实验表明,这种方法在四个基准上超越了先前的最优结果。
摘要由CSDN通过智能技术生成

作者

在这里插入图片描述

Abstract

Referring image segmentation aims to predict the foreground mask of the object referred by a natural language sentence. Multimodal context of the sentence is crucial to distinguish the referent from the background. Existing methods either insufficiently or redundantly model the multimodal context. To tackle this problem, we propose a “gather-propagate-distribute” scheme to model multimodal context by cross-modal interaction and implement this scheme as a novel Linguistic Structure guided Context Modeling (LSCM) module. Our LSCM module builds a Dependency Parsing Tree suppressed Word Graph (DPT-WG) which guides all the words to include valid multimodal context of the sentence while excluding disturbing ones through three steps over the multimodal feature, i.e., gathering, constrained propagation and distributing. Extensive experiments on four benchmarks demonstrate that our method outperforms all the previous state-of-the-arts

Referring image segmentation的目的是预测自然语言句子中参考对象的前景掩码。多模态语境是区分指称和背景的关键。现有方法对多模态上下文建模不够充分或冗余。为了解决这一问题,我们提出了一种“采集-传播-分布”模式,通过跨通道交互来建模多模态语境,并将该模式实现为一种新的语言结构导向语境建模Linguistic Structure guided Context Modeling (LSCM)模块。我们的LSCM模块构建了一个依赖解析树抑制词图(Dependency Parsing Tree suppressed Word Graph, DPT-WG),它指导所有单词包含句子的有效多模态上下文,同时通过收集、约束传播和分发三个步骤排除干扰词。在四个基准上的广泛实验表明,我们的方法优于所有以前的先进水平.

Introduction

图像分割的目的是预测目标的前景掩码,该掩码与自然语言表达式的描述相匹配。它具有广泛的应用,如人机交互、交互式图像编辑等。由于自然语言表达可能包含多种语言概念,如实体(如“车”、“人”)、属性(如“红”、“小”)和关系(如“前”、“左”),因此与传统语义分词中预定义的类别相比,该任务面临更广泛的类别集合。它要求算法处理语言和视觉之间不同语义概念的对齐。
在这里插入图片描述
解决这个问题的一般方法是先分别提取视觉特征和语言特征,然后根据这两种特征生成的多模态特征进行分割。句子中引用的实体被定义为referent。由于大量噪声的存在,参照物的多模态特征很难与背景特征区分开来。为了解决这一问题,可以利用与句子相关的有效多模态上下文来突出指称物的特征,抑制背景的特征,从而实现准确的分割。一些作品通过直接连接视觉和语言特征的[16][32]或循环细化[25][21][4]来解决这个问题,但缺乏多模态上下文的显式建模。其他工作引入动态过滤器[29]或跨模态自我注意[39]来建模多模态上下文。然而,由于动态过滤器[29]的数量有限,并且由于密集的计算操作[39]中聚合多模态上下文的权重可能是多余的,因此这些多模态上下文要么是不足的,要么是冗余的。
为了获得有效的多模态语境,一个可行的解决方案是以语言结构为指导,选择性地构建与句子相关的有效多模态语境。如图1所示,每个词都可以通过跨模态注意收集与自身相关的多模态上下文。例如,单词“dog”对应图片中两只狗的红色面具。每个词的多模态语境是整个句子部分孤立的理解结果。因此,词语间的约束交际需要包含有效的多模态语境,排除干扰语境。然后,每个词的交际多模态语境都包含了与整个句子相关的适当信息,可以通过聚合形成有效的多模态语境,突出指称者的特征。
为了实现上述解决方案,本文提出了一种语言结构导向的多模态上下文建模(LSCM)模块。具体来说,首先将输入的句子和图像的特征融合在一起,形成多模态特征。然后,如图1所示,为了充分利用输入句子的语言结构,我们构造了依存句法分析树抑制词图(Dependency Parsing Tree suppressed Word Graph, DPT-WG),每个节点对应一个单词。在DPTWG的基础上,通过三个步骤对句子的有效多模态上下文进行建模。(1)通过跨模态注意作为节点特征,收集特定词对应的相关多模态特征(即上下文)。在这一步,每个单词节点只包含与自身相关的多模态上下文。以图1为例,“dog”和“table”对应的段分别用红色和蓝色掩码表示。将每个掩模内的多模态特征聚拢在一起,形成图的节点特征。(2)在词节点之间传播信息,使每个词节点都能获得整句的多模态上下文。一开始,词图中的节点是完全连通的,对边权值没有任何约束。但是,句子中的两个词之间可能没有密切的联系,它们之间不受约束的交流可能会引入令人不安的多模态语境。例如,图1中的“golden”和“pink”分别修饰了不同的实体(“dog”和“table”),它们之间的相关性相对较弱。在“金色”和“粉色”之间不受约束(即广泛)的信息传播是不必要的,可能会引入令人不安的多模态上下文。因此,我们使用依赖解析树(DPT)(3)描述词之间的句法结构,以选择性地抑制词图中某些边的权值。DPT-WG可以指导每个单词节点包含来自其他单词的有效上下文,排除干扰上下文。传播后,更新的节点特征获取整个句子的信息。如图1所示,这五个词在我们DPT-WG的结构化指导下进行了交流和更新。(3)将更新后的节点特征重新分布到多模态特征图上的每个空间位置。如图1所示,输入词对应的分段都聚在ground-truth reference segmentation周围。它表明更新后的多模态特征包含更有效的多模态上下文。此外,我们还提出了一种双路径多层次融合模块,该模块采用自底向上和自顶向下两种路径整合低层特征的空间细节和高层特征的语义信息,细化分割结果。本文的主要贡献如下:

  • 我们引入了一种“收集-传播-分发”模式,通过视觉和语言模式之间的交互来建模紧凑的多模态上下文。
  • 在依赖解析树抑制词图(DPT-WG)的指导下,提出了一种基于语言结构的上下文建模(LSCM)模块来实现上述方案,该模块可以聚合有效的多模态上下文,排除干扰上下文。这样就获得了指称物更有鉴别性的多模态特征。
  • 在四个基准上的大量实验表明,我们的方法优于所有先前的技术,即UNC (+1.58%), UNC+ (+3.09%), G-Ref(+1.65%)和ReferIt(+2.44%)。

Related Work

Semantic Segmentation

近年来,基于全卷积网络[27]的语义分割方法取得了很大的进展。DeepLab[5]用心房卷积代替标准卷积,扩大了滤波器的接受域,导致比原始FCN更大的特征图具有更丰富的语义信息。DeepLab v2[6]和v3[7]采用平行的心房卷积,不同的心房速率称为ASPP来聚合多尺度上下文。PSPNet[43]采用金字塔池模块来获取多尺度信息。EncNet[42]对场景的语义类别先验信息进行编码,以提供全局上下文。许多作品利用包含详细信息的低层次特征来细化分割结果的局部部分。

2.2 Referring Image Localization & Segmentation

引用图像定位的目的是对自然语言表达式引用的对象进行局部定位。一些作品[15][36][22] 建模多模态特征之间的关系,以匹配对象与表达式。matnet[40]将引用表达式分解为主题、位置和关系,计算模块分数,用于定位引用。与参考图像定位相比,参考图像分割的目的是获得更准确的参考对象结果,即一个语义蒙版而不是一个包围框。参考分割字段的方法可以分为自底向上和自顶向下两种。
自底向上方法主要通过多模态特征融合来直接预测参考点的掩码。Hu等人从CNN和LSTM[13]提出了一个直观的视觉和语言特征连接。在[21]中采用多层特征融合。单词注意[32][4]、多模态LSTM[25][29]和对抗性学习[31]被进一步整合以细化多模态特征。在[39]中利用跨模态的自我注意来捕捉图像区域和单词之间的长期依赖关系,由于自我注意的密集计算而引入了大量的冗余上下文。
自顶向下方法主要依靠预先训练的像素级检测器,即Mask R-CNN[11]来生成RoI提案,并预测所选提案内的掩码。matnet[40]将模块分数整合到Mask R-CNN框架中进行引用分割任务。最近的CAC[8]在Mask R-CNN中引入了引用表达式与其重构标题之间的周期一致性,以提高分割性能。在本文中,我们提出了一种基于自底向上的方法,该方法以语言结构为指导,包含有效的多模态上下文并排除干扰上下文,从而实现准确的指称分词。

2.3 Structural Context Modeling

上下文信息建模对于视觉和语言问题至关重要。典型的方法如自我注意[33][34]在捕捉语言或视觉形态的长期依赖性方面显示出强大的力量。此外,还探讨了更复杂的数据结构来建模上下文信息。Chen et al[9]提出了一个包含少量节点的潜在图来从视觉特征中捕获上下文,用于识别和分割。在引用表达式任务中,以区域建议为节点的图[14]、[36]、[37]、[38]和神经模块树遍历[26]在一定程度上模拟了多模态上下文。与此不同的是,我们提出以引用词作为节点构建一个更紧凑的图,并利用依赖解析树[3]来选择性地建模有效的多模态上下文。

Method

我们模型的总体架构如图2所示。我们首先利用CNN和LSTM分别提取视觉特征和语言特征,然后融合它们得到多模态特征。然后,将多模态特征输入我们提出的语言结构指导的上下文建模(LSCM)模块,以突出所提及实体的多模态特征。我们的LSCM模块在DPT-WG的结构指导下对多模态特征进行上下文建模。最后,我们提出的双路径融合模块融合多层次特征,用于掩模预测。

3.1Multimodal Feature Extraction

我们的模型以一张图片和一个包含T个单词的参考句子作为输入。如图2所示,我们使用CNN骨干网提取多层次的视觉特征,然后将其转换为相同的大小。多层次的视觉特性{V2, V3, V4, V5}对应Resnet的特性{Res2、Res3 Res4, Res5}[12],其中 V i ∈ R H × W × C v , i ∈ { 2 、 3 、 4 、 5 } V_i∈\R^{H×W×C_v},i∈\{2、3、4、5\} Vi

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值