图文检索论文阅读

最新推荐文章于 2025-01-07 18:44:01 发布

吉小开

最新推荐文章于 2025-01-07 18:44:01 发布

阅读量3.1k

点赞数

分类专栏：图文检索

本文链接：https://blog.csdn.net/qq_45773451/article/details/121935677

版权

计算机视觉深度学习机器学习

图文检索专栏收录该内容

7 篇文章

订阅专栏

文章题目、出处：

A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval
SoMeT2021
论文地址：https://arxiv.org/pdf/2106.02400.pdf
代码地址：https://github.com/m2man/LGSGM

目的：

通过构造图像和文本场景图，挖掘图像文本中对象之间的相互作用。

结论：

解决了现有的场景图匹配模型在图形编码阶段忽略全局细节的问题。提出了一个图嵌入模块，通过将图的总体信息总结为向量形式来解决这个问题。

背景：

传统的图像-文本检索方法主要关注图像中出现的视觉对象的索引，而忽略了这些对象之间的交互作用。现有的场景图匹配方法SGM仍可以改进：计算相似度是没有考虑全局信息；没有使用归一化，容易过拟合。

方法：

图相似排序问题。

通过引入场景图，捕捉对象之间的相互关系，对于图像及其标题的一对场景图，使用两个单独的模型来学习每个图的节点和边缘的特征，进行场景图匹配。

在这里插入图片描述

在预处理阶段首先提取图像的场景图。然后对场景图进行编码，得到用于计算局部相似度得分的视觉特征图。文本也经过类似的过程来获得文本特征图。两个特征图都通过一个共享的图嵌入模型嵌入到向量中。然后根据它们的矢量级形式计算全局相似度，并结合局部得分得到最终的相似度。
视觉图编码：构建场景图

Word embedding:获取节点和边的语义信息，
Image feature：图像本身也包含丰富的信息，对于节点，计算相应区域的特征，对于边，计算与它相连的两个区域的特征。
Fused feature：通过全连接层连接语义特征和图像特征。得到融合两种模态细节的融合特征。
Graph Network: 使用图卷积网络(GCN)来学习图的连接，并更新图的节点和边的融合特征。
在这里插入图片描述

文本图编码：构建场景图。将一个句子转换成一个场景图来详细描述关系。

在这里插入图片描述

场景图和句子中的每个单词都要进行词嵌入来学习语义特征。将两种不同的LSTM模型应用于句子和图中的三元关系，得到单词和关系特征，并与视觉特征场景图进行比较，得到局部相似度。每个编码后的节点和图中的边在LSTM模型之后形成一个图，并将其送入图卷积网络，更新其特征并创建文本特征图。最后，将该图嵌入到一个向量中，并与视觉数据的向量进行比较，测量全局相似度得分。
Word embedding:词嵌入
Word feature：整个句子进入双向LSTM层次结构，从正反两方面获取特征。取平均得到Word feature
Graph Network: 使用另一种双向LSTM结构LSTMt，并在所有三元组之间共享。
图嵌入：在提取两种模态的特征图后，使用注意机制将其嵌入到向量形式中。
相似性函数：
Local similarity：节点评分和边评分之和
Global similarity：全局向量提供了图的总体信息。使用余弦距离来度量两个完整图之间的匹配度。

结果：

Dataset: Flickr30K
在这里插入图片描述