图文检索论文阅读

文章题目、出处:

A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval
SoMeT2021
论文地址:https://arxiv.org/pdf/2106.02400.pdf
代码地址:https://github.com/m2man/LGSGM

目的:

通过构造图像和文本场景图,挖掘图像文本中对象之间的相互作用。

结论:

解决了现有的场景图匹配模型在图形编码阶段忽略全局细节的问题。提出了一个图嵌入模块,通过将图的总体信息总结为向量形式来解决这个问题。

背景:

传统的图像-文本检索方法主要关注图像中出现的视觉对象的索引,而忽略了这些对象之间的交互作用。现有的场景图匹配方法SGM仍可以改进:计算相似度是没有考虑全局信息;没有使用归一化,容易过拟合。

方法:

图相似排序问题。

通过引入场景图,捕捉对象之间的相互关系,对于图像及其标题的一对场景图,使用两个单独的模型来学习每个图的节点和边缘的特征,进行场景图匹配。

在这里插入图片描述

在预处理阶段首先提取图像的场景图。然后对场景图进行编码,得到用于计算局部相似度得分的视觉特征图。文本也经过类似的过程来获得文本特征图。两个特征图都通过一个共享的图嵌入模型嵌入到向量中。然后根据它们的矢量级形式计算全局相似度,并结合局部得分得到最终的相似度。
视觉图编码:构建场景图

Word embedding:获取节点和边的语义信息,
Image feature:图像本身也包含丰富的信息,对于节点,计算相应区域的特征,对于边,计算与它相连的两个区域的特征。
Fused feature:通过全连接层连接语义特征和图像特征。得到融合两种模态细节的融合特征。
Graph Network: 使用图卷积网络(GCN)来学习图的连接,并更新图的节点和边的融合特征。
在这里插入图片描述

文本图编码:构建场景图。将一个句子转换成一个场景图来详细描述关系。

在这里插入图片描述

场景图和句子中的每个单词都要进行词嵌入来学习语义特征。将两种不同的LSTM模型应用于句子和图中的三元关系,得到单词和关系特征,并与视觉特征场景图进行比较,得到局部相似度。每个编码后的节点和图中的边在LSTM模型之后形成一个图,并将其送入图卷积网络,更新其特征并创建文本特征图。最后,将该图嵌入到一个向量中,并与视觉数据的向量进行比较,测量全局相似度得分。
Word embedding:词嵌入
Word feature:整个句子进入双向LSTM层次结构,从正反两方面获取特征。取平均得到Word feature
Graph Network: 使用另一种双向LSTM结构LSTMt,并在所有三元组之间共享。
图嵌入:在提取两种模态的特征图后,使用注意机制将其嵌入到向量形式中。
相似性函数
Local similarity:节点评分和边评分之和
Global similarity:全局向量提供了图的总体信息。使用余弦距离来度量两个完整图之间的匹配度。

结果:

Dataset: Flickr30K
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值