《读论文系列图文检索（将对象关系属性建模为图，计算相似度） GSMN》Graph Structured Network for Image-Text Matching

沐花月

已于 2023-10-17 20:13:33 修改

阅读量296

点赞数

分类专栏： nlp论文阅读文章标签：人工智能机器学习论文阅读

于 2023-10-17 18:41:30 首次发布

本文链接：https://blog.csdn.net/m0_61054964/article/details/133881618

版权

nlp论文阅读专栏收录该内容

4 篇文章 2 订阅

订阅专栏

Graph Structured Network for Image-Text Matching（图文匹配的图结构网络）

摘要

GSMN将对象、关系、和属性建模为一个结构化短语，学习到对象、关系和属性的对应关系。
节点级匹配：将每个节点与其来自另一模态的相关节点关联。
结构级匹配：融合关联领域，关联节点，共同推断出细粒度的对应关系。

1 介绍

全局对应学习方法：将整个图像和文本投影到一个共同的潜在空间，可以将文本和图像统一为相似的表示。目标：最大化匹配的图像-文本对的相似性
局部对应学习方法：学习局部区域与单词的对应关系。

现有网络框架的缺点：
(1)由于关系和属性的对应关系被对象对应关系所淹没，很难学习到它们的对应关系。

(2)没有描述性关系和属性的引导，对象容易对应错误的类别。

粗对应会错误地将“狗”这个词与图像中的所有狗联系起来，而忽略了狗的更精细的细节，即棕色或灰色。相比之下，细粒度对应明确地将对象“狗”、关系“咬”和属性“棕色”建模为短语。

本文idea：

图结构匹配网络(GSMN) 该网络将对象、关系和属性显式地建模为一个短语，并通过对这些局部短语进行匹配来共同推断细粒度对应关系。这将对象、关系和属性的对应学习以一种相互强制的方式结合起来。一方面，关系对应和属性对应可以指导细粒度对象对应学习。另一方面，细粒度对象对应迫使网络显式地学习关系对应和属性对应。

该网络分别为图像和文本构建图。

图节点由对象、关系和属性组成，如果任意两个节点相互作用(如:对象的节点将与其关系或属性的节点相连)。然后对可视化图和文本图分别执行节点级和结构级匹配。

节点级匹配将每个节点与来自另一模态的节点区别地关联起来，然后在结构级匹配中将其传播到邻域。短语对应可以在节点对应的指导下进行推断。最后，将更新后的对应关系用于预测图像-文本对的全局相似度。

本文贡献：

(1)提出了一种图结构匹配网络，该网络明确地为图像和文本构建图结构，并通过学习细粒度的短语对应关系进行匹配。据我们所知，这是第一个在异构视觉和文本图形上执行图像-文本匹配的框架。

(2)据我们所知，这是第一个使用图卷积层传播节点对应，并使用它来推断细粒度短语对应的工作。

(3)我们在Flickr30K和MSCOCO上进行了广泛的实验，显示了我们在最先进的技术中的优势。

2 相关工作

3 方法

1.提取文本图像特征

2.构建视觉图形和文本图形

3.节点级匹配学习节点对应关系

4.结构匹配传递到邻居，并且融合对象、关系、属性的对应关系。

3.1图构造

文本图像构造

为每一个文本构造一个无向稀疏图G1=（V1，E1），A表示每个结点的相邻矩阵，We表示边权，即节点之间语义依赖关系。

1.使用CoreNLP识别文本中的语义依赖关系（它不仅可以解析句子中的宾语(名词)、关系(动词)和定语(形容词或量词)，还可以解析它们的语义依赖关系。例如，给定一个文本“一只棕色的狗咬了一只灰色的狗的耳朵”，“a”，“棕色”是第一个对象“狗”的属性，“咬”是它的关系。）

2.把每个词设置为图节点，如果节点间存在语义依赖，那么节点间存在边，然后计算单词表示u的相似矩阵

Sij代表第i个节点和第j个节点之间的相似度，入是一个比例因子

视觉图像构造

G2（V2，E2），每张图表示为五项全连接图，每个节点与其他节点相关联。采用极坐标来建模每个图象的空间关系，解耦成对区域的方向和距离，还可以捕获不同区域之间的语义和空间信息。

3.2多模态图匹配

3.2.1节点级匹配

将每个节点与另一个模态图中的节点关联起来，来学习节点对应关系。

我们首先对文本图上的节点级匹配进行了详细的描述，然后对视觉图上的节点级匹配进行了粗略的描述，因为该操作在两种图上是对称的。

聚合的视觉节点：

表示计算视觉和文本节点间的相似性，然后沿着视觉轴计算softmax函数。相似度值度量可视化节点与每个文本节点的对应程度。然后，我们将所有视觉节点聚合为一个加权节点。

多块模块：用于计算文本节点和聚合的视觉节点的块相似度

将文本节点和聚合视觉节点分别拆分为t各块，表示为和，计算多块相似度

，将所有块的相似度连接起来，可以得到第i个文本节点的匹配向量：

其中“||”表示串联。通过这种方式，每个文本节点与其匹配的视觉节点相关联，在结构级匹配中将其传播给相邻节点，引导相邻节点学习细粒度的短语对应关系。

对称地，当给定一个可视化图时，在每个可视化节点上进行节点级匹配。相应的文本节点将以不同的方式关联

然后，每个可视化节点及其相关的文本节点将由多块模块处理，产生匹配向量x

3.2.2结构级匹配

结构级匹配将节点级匹配向量作为输入，并将这些向量沿图边传播给相邻节点。

利用GCN对邻域匹配向量进行积分，更新每个节点的匹配向量。GCN层将应用K个核，这些核学习如何整合邻域匹配向量，公式为

总体匹配分数：

3.2.3 目标函数

采用三元组作为目标函数

3.3.特征表示

视觉表示

将视觉特征表示为n个显著区域的组合，这些显著区域由预训练的Faster——RCNN检测。将检测到的区域输入到预训练的ResNet101中提取特征，然后通过全连接层将其转换为d为特征空间。

文本表示

我们将其特征表示为[u1, u2，···，um]，其中每个单词都与一个特征向量相关联。我们首先将每个单词表示为一个单热向量，然后使用双向门控循环单元(BiGRU)将其嵌入到d维特征空间中，该单元能够将向前和向后的上下文信息集成到文本嵌入中。

通过对前向和后向GRU在第i个时间步长的隐藏状态进行平均，得到第i个单词的表示。

4 实验

4.1数据集和实现细节

数据集：Flickr30K[25]和MSCOCO[16]

评估指标：

1.Recall@K (K=1,5,10)，它们分别描述了在前1,5,10个结果中检索到的ground truth的百分比。

2.计算了图像到文本和文本到图像方向上所有召回值(rSum)的总和，即.

4.2实验结果

4.2.1与最先进技术比较

在Flickr30K上的图像-文本匹配结果

在MSCOCO上的图像-文本匹配结果

消融实验

5 结论

本文提出了一种用于图像-文本匹配的图结构匹配网络，该网络对异构的视觉图和文本图进行匹配。这是通过节点级匹配和结构级匹配实现的，它们通过沿着图边缘传播节点对应来推断细粒度的对应。此外，这种设计可以学习到关系和属性的对应关系，这是以前的作品大多忽略的。在关系和属性的指导下，可以大大提高对象的对应性。大量的实验证明了该网络的优越性。