ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

最新推荐文章于 2024-06-21 16:34:15 发布

NeverMoreH

最新推荐文章于 2024-06-21 16:34:15 发布

阅读量783

点赞数

分类专栏： vision&language # visual grounding (RE) 文章标签： ECCV2020 Grounding Segmentation

本文链接：https://blog.csdn.net/ms961516792/article/details/109166750

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual grounding (RE)

10 篇文章 6 订阅

订阅专栏

简介

本文出自北航刘偲老师colab，使用语言结构引导上下文建模，用于Referring Image Segmentation。
下载链接

动机

解决Referring Image Segmentation的一个general想法是：首先，分别提取视觉、语言特征，然后基于多模态特征进行分割。但由于噪声的存在，很难从背景中分割出referent。这时，可以考虑使用与句子相关的、有效的多模态context来突出referent的特征，抑制背景特征。但在已有方法中，使用直接的concatenation或循环微调，缺乏显式的建模多模态上下文。有一些工作中，使用跨模态self-attention或动态滤波建模多模态上下文，但这些上下文要么是不充足的，要么是冗余的。

贡献

本文提出使用“gather-propagate-distribute”机制建模视觉语言中跨模态的上下文信息；
本文提出了Linguistic Structure guided Context Modeling (LSCM)模块，用于实现“gather-propagate-distribute”机制；
在四个benchmarks上进行了实验，均超过了SOTA，UNC (+1:58%)、UNC+(+3:09%)、G-Ref (+1:65%) 、ReferIt (+2:44%)

方法

本文方法的整体架构如下图所示，共有三个步骤：①使用CNN和LSTM分别提取视觉、语言特征，并将二者融合，获得多模态特征；②基于得到的多模态特征，使用LSCM模块（本文重点）突出referent的特征。③将得到的multi-level特征融合，预测mask。

①和③没有太多需要介绍的，主要说一下文中的步骤②，其处理过程如下图所示。Gather，基于attention map得到每个node的特征，此时，每个node中只包含它自己的上下文信息；Propagate，最初时，得到的graph是全连接的，作者使用Dependency Parsing Tree解析出文本中结点的对应关系，基于得到的Tree压制graph中的一些边，就得到的DPT-WG，在DPT-WG上做一次图卷积（后文中有实验，表明做一次图卷积的结果最优），此时，每个node均包含了sentence的上下文；Distribute，将结点特征再映射到特征图上，高亮referent的特征。

实验

在四个数据集上的实验结果：

消融实验：

图卷积层数实验：

一些可视化的实验结果：

对attention map的可视化：

NeverMoreH

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

目录简介动机贡献方法实验简介动机贡献方法实验
复制链接

扫一扫

专栏目录