文章题目、出处:
A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval
SoMeT2021
论文地址:https://arxiv.org/pdf/2106.02400.pdf
代码地址:https://github.com/m2man/LGSGM
目的:
通过构造图像和文本场景图,挖掘图像文本中对象之间的相互作用。
结论:
解决了现有的场景图匹配模型在图形编码阶段忽略全局细节的问题。提出了一个图嵌入模块,通过将图的总体信息总结为向量形式来解决这个问题。
背景:
传统的图像-文本检索方法主要关注图像中出现的视觉对象的索引,而忽略了这些对象之间的交互作用。现有的场景图匹配方法SGM仍可以改进:计算相似度是没有考虑全局信息;没有使用归一化,容易过拟合。
方法:
图相似排序问题。
通过引入场景图,捕捉对象之间的相互关系,对于图像及其标题的一对场景图,使用两个单独的模型来学习每个图的节点和边缘的特征,进行场景图匹配。
在预处理阶段首先提取图像的场景图。然后对场景图进行编码,得到用于计算局部相似度得分的视觉特征图。文本也经过类似的过程来获得文本特征图。两个特征图都通过一个共享的图嵌入模型嵌入到向量中。然后根据它们的矢量级形式计算全局相似度,并结合局部得分得到最终的相似度。
视觉图编码:构建场景图
Word embedding:获取节点和边的语义信息,
Image feature:图像本身也包含丰富的信息,对于节点,计算相应区域的特征,对于边,计算与它相连的两个区域的特征。
Fused feature:通过全连接层连接语义特征和图像特征。得到融合两种模态细节的融合特征。
Graph Network: 使用图卷积网络(GCN)来学习图的连接,并更新图的节点和边的融合特征。
文本图编码:构建场景图。将一个句子转换成一个场景图来详细描述关系。
场景图和句子中的每个单词都要进行词嵌入来学习语义特征。将两种不同的LSTM模型应用于句子和图中的三元关系,得到单词和关系特征,并与视觉特征场景图进行比较,得到局部相似度。每个编码后的节点和图中的边在LSTM模型之后形成一个图,并将其送入图卷积网络,更新其特征并创建文本特征图。最后,将该图嵌入到一个向量中,并与视觉数据的向量进行比较,测量全局相似度得分。
Word embedding:词嵌入
Word feature:整个句子进入双向LSTM层次结构,从正反两方面获取特征。取平均得到Word feature
Graph Network: 使用另一种双向LSTM结构LSTMt,并在所有三元组之间共享。
图嵌入:在提取两种模态的特征图后,使用注意机制将其嵌入到向量形式中。
相似性函数:
Local similarity:节点评分和边评分之和
Global similarity:全局向量提供了图的总体信息。使用余弦距离来度量两个完整图之间的匹配度。
结果:
Dataset: Flickr30K