MAttNet: Modular Attention Network for Referring Expression Comprehension
出版年份:2018\
出版期刊:CVPR2018\
影响因子:\
文章作者:Yu Licheng,Lin Zhe,Shen Xiaohui,Yang Jimei,Lu Xin,Bansal Mohit,Berg Tamara L.
摘要+引言+结论:
研究背景:
最近的大多数研究都将表达式视为一个单一的单元
然而,这些工作大多使用所有特征(目标对象特征、位置特征和上下文特征)的简单串联作为输入,使用单个LSTM对整个表达式进行编码/解码,忽略了不同类型指称表达式之间的差异。
模块化网络
我们提出了第一个用于一般指称表达式理解任务的模块化网络。此外,这些先前的工作通常依赖于现成的语言解析器[ 24 ]将查询语句/问题解析为不同的组件,并动态地将模块组装成处理任务的模型。然而,外部解析器会增加解析错误并将其传播到模型设置中,从而影响性能。
研究设计(这篇文献的研究方法是什么,数据是怎么获取的):
将表达式分解为与主体外观、位置和与其他对象的关系相关的三个模块化组件
能够灵活适应不同的表达式
模块化注意力网络(MAttNet)的模型中,使用了两种类型的注意力:
1.一种是基于语言的注意力,它可以学习模块权重以及每个模块应关注的单词/短语
2.另一种是视觉注意力,它允许主体和关系模块关注相关的图像组件
模块权重将来自所有三个模块的分数动态地结合起来,输出一个总分。
我们的模型如图1所示。MAttNet主要有3个创新点。”
1、首先,MAttNet是针对一般指称表达式设计的。
它由主体、位置和关系三个模块构成。与文献[ 13 ]一样,一个指称表达式可以解析为7个属性:类别名、颜色、大小、绝对位置、相对位置、相对对象和类属属性。MAttNet覆盖了其中的全部。
主题模块处理类别名称、颜色等属性
位置模块处理绝对位置和(部分)相对位置
关系模块处理主客体关系。
每个模块具有不同的结构,在各自的模块空间内学习参数,而不影响其他模块。”
2、通过基于软注意力的机制自动解析表达式,不依赖外部语言解析器
本文学习的解析器关注每个模块的相关单词,很大程度上优于现成的解析器
模型计算与输入表达式相适应的模块权重,衡量每个模块的总体贡献程度
3、主题和关系模块中使用不同的视觉注意技术
在主题模块中"软关注"是指"穿红衣服的人"或"戴黄帽子的人"这样的表述所指涉的对象本身的部分。我们称这种"框内"的注意力。
在关系模块中,硬性注意用于关注"猫在椅子上"或"女孩抱着飞蜂"等表达所提到的关系对象。
这里的注意力集中在"椅子"和"飞盘"上,以确定目标物体"猫"和"女孩"。我们称这种"开箱即用"的注意力。我们证明了这两种注意在提高理解准确性方面起着重要的作用。”
实验结果(研究获得了什么结果):
数据集
我们使用了3个参照表达数据集:Ref COCO、Ref COCO + [ 13 ]和Ref COCOg [ 19 ]进行评估,它们都是在MS COCO图像上采集的[ 14 ],但存在一些差异。
1 ) RefCOCO和RefCOCO +在交互式游戏界面中收集,而RefCOCOg在非交互式环境中收集,从而产生更长的表达,平均分别为3.5和8.4个单词。
2 ) RefCOCO和RefCOCO +包含更多的同类型对象,分别为3.9和1.63。
3 ) RefCOCO +禁止使用绝对位置词,使得数据更加集中于外观区分器。”
在图像指代检测和图像指代分割任务上分别进行实验
研究结论(作者得出了什么结论):
模块化注意力网络通过在模块化框架中同时关注相关单词和视觉区域来解决指称表达式中的差异,并动态计算整体匹配分数。我们展示了我们的模型在边界框级别和像素级别理解上的有效性
基础知识:
Fast R-CNN
Faster R-CNN
Mask R-CNN
VGG16
模块化网络
hinge loss
图表:
图1:
模块化注意力网络( Mattnet )。给定一个表达式,我们注意地将其解析为三个短语嵌入,输入到三个视觉模块中,这些模块以不同的方式处理描述的视觉区域并计算个体匹配分数。然后将整体评分计算为模块评分的加权组合。
图2:
语言编码器使用Bi-LSTM
图3:?
主题模块由视觉主题表示和短语引导嵌入组成。在ResNet - C4阶段后加入属性预测分支,将属性预测和C4的1x1卷积输出作为主体视觉表征。主题短语嵌入在空间区域上进行注意力池化,并将池化后的特征输入到匹配函数中。