ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

简介

本文出自北航刘偲老师colab,使用语言结构引导上下文建模,用于Referring Image Segmentation。
下载链接

动机

解决Referring Image Segmentation的一个general想法是:首先,分别提取视觉、语言特征,然后基于多模态特征进行分割。但由于噪声的存在,很难从背景中分割出referent。这时,可以考虑使用与句子相关的、有效的多模态context来突出referent的特征,抑制背景特征。但在已有方法中,使用直接的concatenation或循环微调,缺乏显式的建模多模态上下文。有一些工作中,使用跨模态self-attention或动态滤波建模多模态上下文,但这些上下文要么是不充足的,要么是冗余的。

贡献

  • 本文提出使用“gather-propagate-distribute”机制建模视觉语言中跨模态的上下文信息;
  • 本文提出了Linguistic Structure guided Context Modeling (LSCM)模块,用于实现“gather-propagate-distribute”机制;
  • 在四个benchmarks上进行了实验,均超过了SOTA,UNC (+1:58%)、UNC+(+3:09%)、G-Ref (+1:65%) 、ReferIt (+2:44%)

方法

本文方法的整体架构如下图所示,共有三个步骤:①使用CNN和LSTM分别提取视觉、语言特征,并将二者融合,获得多模态特征;②基于得到的多模态特征,使用LSCM模块(本文重点)突出referent的特征。③将得到的multi-level特征融合,预测mask。

①和③没有太多需要介绍的,主要说一下文中的步骤②,其处理过程如下图所示。Gather,基于attention map得到每个node的特征,此时,每个node中只包含它自己的上下文信息;Propagate,最初时,得到的graph是全连接的,作者使用Dependency Parsing Tree解析出文本中结点的对应关系,基于得到的Tree压制graph中的一些边,就得到的DPT-WG,在DPT-WG上做一次图卷积(后文中有实验,表明做次图卷积的结果最优),此时,每个node均包含了sentence的上下文;Distribute,将结点特征再映射到特征图上,高亮referent的特征。

实验

在四个数据集上的实验结果:

消融实验:

图卷积层数实验:

一些可视化的实验结果:

对attention map的可视化:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值