《读论文系列 图文检索(将对象关系属性建模为图,计算相似度) GSMN》Graph Structured Network for Image-Text Matching

Graph Structured Network for Image-Text Matching(图文匹配的图结构网络)

摘要 

GSMN将对象、关系、和属性建模为一个结构化短语,学习到对象、关系和属性的对应关系。
节点级匹配:将每个节点与其来自另一模态的相关节点关联。
结构级匹配:融合关联领域,关联节点,共同推断出细粒度的对应关系。

1 介绍

全局对应学习方法:将整个图像和文本投影到一个共同的潜在空间,可以将文本和图像统一为相似的表示。目标:最大化匹配的图像-文本对的相似性
局部对应学习方法:学习局部区域与单词的对应关系。

现有网络框架的缺点:
(1)由于关系和属性的对应关系被对象对应关系所淹没,很难学习到它们的对应关系。

(2)没有描述性关系和属性的引导,对象容易对应错误的类别。

粗对应会错误地将“狗”这个词与图像中的所有狗联系起来,而忽略了狗的更精细的细节,即棕色或灰色。相比之下,细粒度对应明确地将对象“狗”、关系“咬”和属性“棕色”建模为短语。

本文idea:

图结构匹配网络(GSMN) 该网络将对象、关系和属性显式地建模为一个短语,并通过对这些局部短语进行匹配来共同推断细粒度对应关系。这将对象、关系和属性的对应学习以一种相互强制的方式结合起来。一方面,关系对应和属性对应可以指导细粒度对象对应学习。另一方面,细粒度对象对应迫使网络显式地学习关系对应和属性对应。

该网络分别为图像和文本构建图。

图节点对象、关系和属性组成,如果任意两个节点相互作用(如:对象的节点将与其关系或属性的节点相连)。然后对可视化图和文本图分别执行节点级和结构级匹配。

节点级匹配将每个节点与来自另一模态的节点区别地关联起来,然后在结构级匹配中将其传播到邻域。短语对应可以在节点对应的指导下进行推断。最后,将更新后的对应关系用于预测图像-文本对的全局相似度。

本文贡献:

(1)提出了一种图结构匹配网络,该网络明确地为图像和文本构建图结构,并通过学习细粒度的短语对应关系进行匹配。据我们所知,这是第一个在异构视觉和文本图形上执行图像-文本匹配的框架。

(2)据我们所知,这是第一个使用图卷积层传播节点对应,并使用它来推断细粒度短语对应的工作。

(3)我们在Flickr30K和MSCOCO上进行了广泛的实验,显示了我们在最先进的技术中的优势。

2 相关工作

全局对应学习方法:将整个图像和文本投影到一个共同的潜在空间,可以将文本和图像统一为相似的表示。目标:最大化匹配的图像-文本对的相似性
局部对应学习方法:学习局部区域与单词的对应关系。

3 方法

1.提取文本图像特征

2.构建视觉图形和文本图形

3.节点级匹配学习节点对应关系

4.结构匹配传递到邻居,并且融合对象、关系、属性的对应关系。

3.1图构造

文本图像构造

为每一个文本构造一个无向稀疏图G1=(V1,E1),A表示每个结点的相邻矩阵,We表示边权,即节点之间语义依赖关系。

1.使用CoreNLP识别文本中的语义依赖关系(它不仅可以解析句子中的宾语(名词)、关系(动词)和定语(形容词或量词),还可以解析它们的语义依赖关系。例如,给定一个文本“一只棕色的狗咬了一只灰色的狗的耳朵”,“a”,“棕色”是第一个对象“狗”的属性,“咬”是它的关系。)

2.把每个词设置为图节点,如果节点间存在语义依赖,那么节点间存在边,然后计算单词表示u的相似矩阵

Sij代表第i个节点和第j个节点之间的相似度,入是一个比例因子

视觉图像构造

G2(V2,E2),每张图表示为五项全连接图,每个节点与其他节点相关联。采用极坐标来建模每个图象的空间关系,解耦成对区域的方向和距离,还可以捕获不同区域之间的语义和空间信息。

3.2多模态图匹配

3.2.1节点级匹配

将每个节点与另一个模态图中的节点关联起来,来学习节点对应关系。

我们首先对文本图上的节点级匹配进行了详细的描述,然后对视觉图上的节点级匹配进行了粗略的描述,因为该操作在两种图上是对称的。

聚合的视觉节点:

表示计算视觉和文本节点间的相似性,然后沿着视觉轴计算softmax函数。相似度值度量可视化节点与每个文本节点的对应程度。然后,我们将所有视觉节点聚合为一个加权节点。

多块模块:用于计算文本节点和聚合的视觉节点的块相似度

将文本节点和聚合视觉节点分别拆分为t各块,表示为,计算多块相似度

,将所有块的相似度连接起来,可以得到第i个文本节点的匹配向量:

其中“||”表示串联。通过这种方式,每个文本节点与其匹配的视觉节点相关联,在结构级匹配中将其传播给相邻节点,引导相邻节点学习细粒度的短语对应关系。

对称地,当给定一个可视化图时,在每个可视化节点上进行节点级匹配。相应的文本节点将以不同的方式关联

然后,每个可视化节点及其相关的文本节点将由多块模块处理,产生匹配向量x

3.2.2结构级匹配

结构级匹配将节点级匹配向量作为输入,并将这些向量沿图边传播给相邻节点。

利用GCN对邻域匹配向量进行积分,更新每个节点的匹配向量。GCN层将应用K个核,这些核学习如何整合邻域匹配向量,公式为

总体匹配分数:

3.2.3 目标函数

采用三元组作为目标函数

3.3.特征表示

视觉表示

将视觉特征表示为n个显著区域的组合,这些显著区域由预训练的Faster——RCNN检测。将检测到的区域输入到预训练的ResNet101中提取特征,然后通过全连接层将其转换为d为特征空间。

文本表示

我们将其特征表示为[u1, u2,···,um],其中每个单词都与一个特征向量相关联。我们首先将每个单词表示为一个单热向量,然后使用双向门控循环单元(BiGRU)将其嵌入到d维特征空间中,该单元能够将向前和向后的上下文信息集成到文本嵌入中。

通过对前向和后向GRU在第i个时间步长的隐藏状态进行平均,得到第i个单词的表示。

4 实验

4.1数据集和实现细节

数据集:Flickr30K[25]和MSCOCO[16]

评估指标:

1.Recall@K (K=1,5,10),它们分别描述了在前1,5,10个结果中检索到的ground truth的百分比。

2.计算了图像到文本和文本到图像方向上所有召回值(rSum)的总和,即.

4.2实验结果

4.2.1与最先进技术比较

在Flickr30K上的图像-文本匹配结果

在MSCOCO上的图像-文本匹配结果

消融实验

5 结论

本文提出了一种用于图像-文本匹配的图结构匹配网络,该网络对异构的视觉图和文本图进行匹配。这是通过节点级匹配和结构级匹配实现的,它们通过沿着图边缘传播节点对应来推断细粒度的对应。此外,这种设计可以学习到关系和属性的对应关系,这是以前的作品大多忽略的。在关系和属性的指导下,可以大大提高对象的对应性。大量的实验证明了该网络的优越性。

近日,DeepMind 和谷歌联合进行了一项研究,该研究提出了一种执行相似性学习的新型强大模型——匹配网络(GMN),性能优于 GNN 和 GCN 模型。该论文已被 ICML 2019 接收。 DeepMind 和谷歌的这项新研究聚焦检索和匹配结构对象这一极具挑战性的问题,做出了两个重要贡献。 首先,研究者展示了如何训练神经网络(GNN),使之生成可在向量空间中执行高效相似性推理的嵌入。其次,研究者提出了新型匹配网络模型(GMN),该模型以一对作为输入,通过基于跨注意力的新型匹配机制进行联合推理,从而计算它们之间的相似性分数。 研究者证明 GMN 模型在不同领域中的有效性,包括极具挑战性的基于控制流的函数相似性搜索问题,这个问题在检索软件系统的漏洞中起着非常重要的作用。实验分析表明 GMN 模型不止能在相似性学习的环境下利用结构,还能超越针对这些问题手动精心设计的特定领域基线系统。研究主题:相似性学习问题 是编码关系结构的自然表征,常常出现在多个领域中。根据结构数据定义的计算可以用在各种领域中,从计算生物学和化学的分子分析到自然语言理解中知识结构解析的分析都可以。 近几年来,神经网络(Graph Neural Network,GNN)已经成为可以有效学习结构数据表征、解决各种基于的监督预测问题的模型了。这样的模型在迭代聚合局部结构信息的传播过程中设计并计算节点表征,从而对元素的排列(permutation)具有不变性。然后直接将这些节点表征用于节点分类,或者将它们合并到用于分类的向量中。而 GNN 在监督分类或回归以外的问题的相关研究相对较少。 DeepMind 的这篇论文研究的是结构对象的相似性学习问题,这个问题在现实生活中有很多重要的应用,尤其是在数据库中基于相似性的搜索。还有一个应用是涉及计算机安全的二元函数相似性搜索,给定的二元函数可能包含有已知漏洞的代码,我们要检查这个二元函数中是否有和已知易受攻击的函数相似的控制流(control-flow-graph)。这有助于识别闭源软件中易受攻击的静态连结函式库,这是一个很常见的问题 (CVE, 2010; 2018),现在还没有很好的解决方法。 1 展示了一个例子,在这个例子中用汇编语言注释的控制流来表示二元函数。这种相似性学习问题极具挑战性,因为就算是之间细微的差别也会造成语义上极大的不同,但结构不同的语义上可能非常相似。因此,对这个问题而言,一个成功的模型应该(1)利用结构;(2)能从的结构和学习到的语义中推导出的相似性。 1:二元函数相似性学习问题。检查两个是否相似需要推理的结构和语义。左边两个控制流对应使用不同编译器编译的相同函数(因此二者比较相似),但右侧对应的是不同函数。 解决方案 为了解决相似性学习问题,该论文研究了 GNN 在这种情况中的使用,探讨了如何用 GNN 将嵌入到向量空间,并学习这种嵌入模型,从而使向量空间中相似的靠近、不相似的分开。这个模型的一个重要特性是它可以将每一个独立地映射到一个嵌入向量,然后在向量空间中执行相似性计算。因此,可以预先计算并索引大型数据库中的嵌入,这样就能用快速的最近邻搜索数据结构(如 k-d 树) 或局部敏感哈希算法 (Gionis et al., 1999) 执行高效的检索。 研究者进一步扩展 GNN,提出新型匹配网络(Graph Matching Networks,GMN)来执行相似性学习。GMN 没有单独计算每个表征,它通过跨注意力机制计算相似性分数,来关联之间的节点并识别差异。该模型依赖成对计算表征,因此它比嵌入模型更强大,并在准确率和计算之间做出了很好的权衡。 研究者在三个任务上评估了 GMN 和基线模型:仅捕获结构相似性的合成编辑距离学习任务(synthetic graph edit-distance learning tas),以及两个现实世界任务——二元函数相似性搜索和网格检索,这两项任务都需要推理结构相似性和语义相似性。在所有任务中,GMN 都比基线和结构不可知(structure agnostic)模型的性能更好。在更详细的模型简化测试中,研究者发现 GMN 始终优于嵌入模型和 Siamese 网络。 该研究的贡献如下: 展示了如何用 GNN 产生用于相似性学习的嵌入; 提出了新型匹配网络(GMN),该网络基于跨注意力匹配来计算相似性; 实验证明,该研究提出的相似性学习模型 GMN 在多个应用中都有良好的表现,比结构不可知模型和现有的手动建立的基线模型都要好。 深度相似性学习 给定两个 G1 = (V1, E1) 和 G2 = (V2, E2),我们需要一个可以计算之间相似性分数 s(G1, G2) 的模型。每个 G = (V, E) 被表示为节点 V 和边 E 的集合,每个节点 i∈V 都可以和特征向量 x_i 相关联,每条边 (i, j) ∈ E 都可以和特征向量 x_ij 关联起来。这些特征可以表示节点类型、边的方向等。如果一个节点或者一条边不能关联任何特征,那么我们可以将对应向量设置成值为 1 的常量。研究者提出了两个相似性学习模型:一个是基于标准 GNN 的学习嵌入的模型;另一个是更为崭新也更加强大的 GMN。 2 展示了这两个模型:嵌入模型 嵌入模型可以将每一个都嵌入到向量中,然后用向量空间中的相似性矩阵衡量之间的相似性。GNN 嵌入模型包括三个部分:编码器、传播层和聚合器。 匹配网络 匹配网络以一对作为输入,计算它们之间的相似性分数。和嵌入模型相比,匹配模型联合成对计算相似性分数,而不是先将每个独立地映射到向量上。因此,匹配模型可能比嵌入模型更加强大,但它需要额外的计算效率。 匹配网络改变了每个传播层中的节点更新模块,这样不仅可以考虑到每个的边上的聚合信息,还可以考虑到衡量一个中的一个节点和其他中的一或多个节点匹配近日,DeepMind 和谷歌联合进行了一项研究,该研究提出了一种执行相似性学习的新型强大模型——匹配网络(GMN),性能优于 GNN 和 GCN 模型。该论文已被 ICML 2019 接收。 程度的跨匹配向量:以调整的表征,在它们不匹配时放大它们之间的差异。 实验 研究者在三个任务上评估了相似性学习(Graph Similarity Learning,GSL)框架、嵌入模型(GNN)以及匹配网络(GMN)的性能,并将这些模型与其他方法进行了对比。总体上,实验结果表明在相似性学习任务上,GMN 表现优异,而且始终优于其他方法。 学习编辑距离(GED) G1 和 G2 之间的编辑距离即将 G1 变换为 G2 所需的最小编辑操作。通常这些编辑操作包括添加/移除/替换节点和边。编辑距离是衡量之间相似性的自然指标,在相似性搜索中有很多应用。 从下表 1 中可以看出,通过学习特定分布的,GSL 模型的性能优于一般的基线模型,而 GMN 的性能持续优于嵌入模型(GNN)。基于控制流的二元函数相似性搜索 二元函数相似性搜索是计算机安全领域中的重要问题。当我们无法获取源代码时,可以通过二元函数执行分析和搜索,例如在处理商业或嵌入式软件或可疑的可执行程序时。 下 4 展示了具备不同传播步和不同数据设置的不同模型在二元函数相似性搜索任务上的性能。从中,我们可以看到: 嵌入模型和匹配模型的性能随着传播步的增加而持续提升; 在传播步足够的情况下,嵌入模型持续优于基线模型; 匹配模型在所有设置和传播步的情况下都优于嵌入模型。研究者检测了GMN 模型中不同组件的效果,并将 GMN 模型与卷积网络(GCN)、神经网络(GNN)和 GNN/GCN 嵌入模型的 Siamese 版本进行对比。 下表 2 展示了实验结果,表明: GNN 嵌入模型是具备竞争力的模型(比 GCN 模型强大); 使用 Siamese 网络架构基于表征学习相似性要比使用预先指定的相似性指标(Euclidean、Hamming 等)好; GMN 优于Siamese 模型,这表明在计算过程早期进行跨信息交流是非常重要的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值