Graph Structured Network for Image-Text Matching(图文匹配的图结构网络)
摘要
GSMN将对象、关系、和属性建模为一个结构化短语,学习到对象、关系和属性的对应关系。
节点级匹配:将每个节点与其来自另一模态的相关节点关联。
结构级匹配:融合关联领域,关联节点,共同推断出细粒度的对应关系。
1 介绍
全局对应学习方法:将整个图像和文本投影到一个共同的潜在空间,可以将文本和图像统一为相似的表示。目标:最大化匹配的图像-文本对的相似性
局部对应学习方法:学习局部区域与单词的对应关系。
现有网络框架的缺点:
(1)由于关系和属性的对应关系被对象对应关系所淹没,很难学习到它们的对应关系。
(2)没有描述性关系和属性的引导,对象容易对应错误的类别。
粗对应会错误地将“狗”这个词与图像中的所有狗联系起来,而忽略了狗的更精细的细节,即棕色或灰色。相比之下,细粒度对应明确地将对象“狗”、关系“咬”和属性“棕色”建模为短语。
本文idea:
图结构匹配网络(GSMN) 该网络将对象、关系和属性显式地建模为一个短语,并通过对这些局部短语进行匹配来共同推断细粒度对应关系。这将对象、关系和属性的对应学习以一种相互强制的方式结合起来。一方面,关系对应和属性对应可以指导细粒度对象对应学习。另一方面,细粒度对象对应迫使网络显式地学习关系对应和属性对应。
该网络分别为图像和文本构建图。
图节点由对象、关系和属性组成,如果任意两个节点相互作用(如:对象的节点将与其关系或属性的节点相连)。然后对可视化图和文本图分别执行节点级和结构级匹配。
节点级匹配将每个节点与来自另一模态的节点区别地关联起来,然后在结构级匹配中将其传播到邻域。短语对应可以在节点对应的指导下进行推断。最后,将更新后的对应关系用于预测图像-文本对的全局相似度。
本文贡献:
(1)提出了一种图结构匹配网络,该网络明确地为图像和文本构建图结构,并通过学习细粒度的短语对应关系进行匹配。据我们所知,这是第一个在异构视觉和文本图形上执行图像-文本匹配的框架。
(2)据我们所知,这是第一个使用图卷积层传播节点对应,并使用它来推断细粒度短语对应的工作。
(3)我们在Flickr30K和MSCOCO上进行了广泛的实验,显示了我们在最先进的技术中的优势。
2 相关工作
全局对应学习方法:将整个图像和文本投影到一个共同的潜在空间,可以将文本和图像统一为相似的表示。目标:最大化匹配的图像-文本对的相似性
局部对应学习方法:学习局部区域与单词的对应关系。
3 方法
1.提取文本图像特征
2.构建视觉图形和文本图形
3.节点级匹配学习节点对应关系
4.结构匹配传递到邻居,并且融合对象、关系、属性的对应关系。
3.1图构造
文本图像构造
为每一个文本构造一个无向稀疏图G1=(V1,E1),A表示每个结点的相邻矩阵,We表示边权,即节点之间语义依赖关系。
1.使用CoreNLP识别文本中的语义依赖关系(它不仅可以解析句子中的宾语(名词)、关系(动词)和定语(形容词或量词),还可以解析它们的语义依赖关系。例如,给定一个文本“一只棕色的狗咬了一只灰色的狗的耳朵”,“a”,“棕色”是第一个对象“狗”的属性,“咬”是它的关系。)
2.把每个词设置为图节点,如果节点间存在语义依赖,那么节点间存在边,然后计算单词表示u的相似矩阵
Sij代表第i个节点和第j个节点之间的相似度,入是一个比例因子
视觉图像构造
G2(V2,E2),每张图表示为五项全连接图,每个节点与其他节点相关联。采用极坐标来建模每个图象的空间关系,解耦成对区域的方向和距离,还可以捕获不同区域之间的语义和空间信息。
3.2多模态图匹配
3.2.1节点级匹配
将每个节点与另一个模态图中的节点关联起来,来学习节点对应关系。
我们首先对文本图上的节点级匹配进行了详细的描述,然后对视觉图上的节点级匹配进行了粗略的描述,因为该操作在两种图上是对称的。
聚合的视觉节点:
表示计算视觉和文本节点间的相似性,然后沿着视觉轴计算softmax函数。相似度值度量可视化节点与每个文本节点的对应程度。然后,我们将所有视觉节点聚合为一个加权节点。
多块模块:用于计算文本节点和聚合的视觉节点的块相似度
将文本节点和聚合视觉节点分别拆分为t各块,表示为和,计算多块相似度
,将所有块的相似度连接起来,可以得到第i个文本节点的匹配向量:
其中“||”表示串联。通过这种方式,每个文本节点与其匹配的视觉节点相关联,在结构级匹配中将其传播给相邻节点,引导相邻节点学习细粒度的短语对应关系。
对称地,当给定一个可视化图时,在每个可视化节点上进行节点级匹配。相应的文本节点将以不同的方式关联
然后,每个可视化节点及其相关的文本节点将由多块模块处理,产生匹配向量x
3.2.2结构级匹配
结构级匹配将节点级匹配向量作为输入,并将这些向量沿图边传播给相邻节点。
利用GCN对邻域匹配向量进行积分,更新每个节点的匹配向量。GCN层将应用K个核,这些核学习如何整合邻域匹配向量,公式为
总体匹配分数:
3.2.3 目标函数
采用三元组作为目标函数
3.3.特征表示
视觉表示
将视觉特征表示为n个显著区域的组合,这些显著区域由预训练的Faster——RCNN检测。将检测到的区域输入到预训练的ResNet101中提取特征,然后通过全连接层将其转换为d为特征空间。
文本表示
我们将其特征表示为[u1, u2,···,um],其中每个单词都与一个特征向量相关联。我们首先将每个单词表示为一个单热向量,然后使用双向门控循环单元(BiGRU)将其嵌入到d维特征空间中,该单元能够将向前和向后的上下文信息集成到文本嵌入中。
通过对前向和后向GRU在第i个时间步长的隐藏状态进行平均,得到第i个单词的表示。
4 实验
4.1数据集和实现细节
数据集:Flickr30K[25]和MSCOCO[16]
评估指标:
1.Recall@K (K=1,5,10),它们分别描述了在前1,5,10个结果中检索到的ground truth的百分比。
2.计算了图像到文本和文本到图像方向上所有召回值(rSum)的总和,即.
4.2实验结果
4.2.1与最先进技术比较
在Flickr30K上的图像-文本匹配结果
在MSCOCO上的图像-文本匹配结果
消融实验
5 结论
本文提出了一种用于图像-文本匹配的图结构匹配网络,该网络对异构的视觉图和文本图进行匹配。这是通过节点级匹配和结构级匹配实现的,它们通过沿着图边缘传播节点对应来推断细粒度的对应。此外,这种设计可以学习到关系和属性的对应关系,这是以前的作品大多忽略的。在关系和属性的指导下,可以大大提高对象的对应性。大量的实验证明了该网络的优越性。