背景
本篇论文来自北大王选计算机研究所,接收于CVPR2020
动机
本文的出发点主要是两个:
1.发掘高阶语义信息(object-predicatesubject triplet (物体之间)主谓宾三元组信息、object-attribute pair 实体-属性对信息)。这个点其实比较常见,这方面的工作已经挺多了
2.确定图文对的匹配分数时把视觉干扰(visual distraction)带来的影响考虑进去。这个点比较有意思。
作者针对这两个主要的motivation,也举了一些例子
3列从左到右,依次是caption,ground-truth image,mismatch image.
3行从上到下,前两行想要说明高阶语义的重要性。物体的属性、句子的谓词等等。最后一行是所谓的视觉干扰,从这个例子不难发现,尽管图像region与文本查询token的相关性很高,但从全局语义上来说是mismatch的。作者把这种现象归结为mismatch图像中还存在着大量与文本无关的显著区域所形成的视觉干扰项在计算匹配分数时被忽略掉了。
架构
从该图中不难看出,作者对视觉模态、语言模态中的元素分别独立建图,然后使用GCN进行特征提取,这样获取的主要是局部特征。此外还通过LSTM、Faster-RCNN分别提取到全局特征用于后续的融合。
方法
build graph
两个模态的处理方式是类似的,这里就以文本模态为例进行说明。
首先将文本也就是句子,做成token embedding之后,得到句子的特征表示,这些tokens用作建图的顶点集V。作者把这些顶点分成3类,物体节点(object node)、属性节点(attribute node)和关系节点(relation node,这里的话也就是指谓词)。这个还好说,边集E又是怎么构造的呢?
如果物体 o i o_i oi具备属性 a i a_i ai