图文匹配Visual-Semantic Matching by Exploring High-Order Attention and Distraction

最新推荐文章于 2024-05-12 11:25:24 发布

薛定猫的谔w

最新推荐文章于 2024-05-12 11:25:24 发布

阅读量3.1k

点赞数 1

文章标签：人工智能计算机视觉 python 深度学习

本文链接：https://blog.csdn.net/csdn_tclz/article/details/111592838

版权

这篇论文提出了一种新的图文匹配方法，通过构建图并利用GCN捕捉高阶语义信息，同时考虑视觉干扰的影响。通过局部和全局匹配以及基于干扰的重新排名，提高了匹配准确性。

摘要由CSDN通过智能技术生成

背景

本篇论文来自北大王选计算机研究所，接收于CVPR2020

动机

本文的出发点主要是两个：
1.发掘高阶语义信息(object-predicatesubject triplet (物体之间)主谓宾三元组信息、object-attribute pair 实体-属性对信息)。这个点其实比较常见，这方面的工作已经挺多了
2.确定图文对的匹配分数时把视觉干扰（visual distraction）带来的影响考虑进去。这个点比较有意思。
作者针对这两个主要的motivation，也举了一些例子
在这里插入图片描述
3列从左到右，依次是caption，ground-truth image，mismatch image.
3行从上到下，前两行想要说明高阶语义的重要性。物体的属性、句子的谓词等等。最后一行是所谓的视觉干扰，从这个例子不难发现，尽管图像region与文本查询token的相关性很高，但从全局语义上来说是mismatch的。作者把这种现象归结为mismatch图像中还存在着大量与文本无关的显著区域所形成的视觉干扰项在计算匹配分数时被忽略掉了。

架构

在这里插入图片描述
从该图中不难看出，作者对视觉模态、语言模态中的元素分别独立建图，然后使用GCN进行特征提取，这样获取的主要是局部特征。此外还通过LSTM、Faster-RCNN分别提取到全局特征用于后续的融合。

方法

build graph

两个模态的处理方式是类似的，这里就以文本模态为例进行说明。
首先将文本也就是句子，做成token embedding之后，得到句子的特征表示，这些tokens用作建图的顶点集V。作者把这些顶点分成3类，物体节点（object node）、属性节点（attribute node）和关系节点(relation node，这里的话也就是指谓词)。这个还好说，边集E又是怎么构造的呢？
在这里插入图片描述
如果物体 $o_i$ 具备属性 $a_i$