文章题目、出处:
Learning Dual Semantic Relations with Graph Attention for Image-Text Matching
TCSVT
论文地址:https://arxiv.org/pdf/2010.11550.pdf
代码地址:https://github.com/kywen1119/DSRAN
目的:
加强区域之间的关系以及区域与全局概念之间的关系
结论:
提出了一个具有不同类型关系模块的双语义关系注意网络(DSRAN),用于捕获对象级语义关系和全局-区域语义关系。学习到的双重关系增强视觉表示,能够更好地匹配在对象级和全局区域级具有内在关联的文本,从而促进匹配过程。
背景:
以往的方法不仅关注图像中区域特征与句子中对应词的对齐,还关注区域关系与关系词的对齐。然而,缺乏对区域特征和全局特征的联合学习,会导致区域特征与全局语境失去联系,导致与某些句子中具有全局含义的非对象词不匹配。
方法:

该网络主要由分离语义关系模块和联合语义关系模块组成,DSRAN在两个模块中分别进行图注意,同时增强区域级关系和区域-全局关系。
对于图像部分,首先从全局和对象两个层次提取原始图像。第一个模块是独立的语义关系模块,旨在学习区域层次的语义关系。二是联合语义关系模块,用于捕获对象和全局概念之间的关系。对于文本部分,一个预先训练的Bert模型或 GRU 编码器提取与图像特征相对应的单词表示。利用跨模态表示,可以计算相似性得分,并用损失函数更新网络参数。最后,我们使用一个重排序过程,以更精确的匹配。
B:Two Levels of Image Features:
给定一个原始图像,分别提取全局特征和区域特征。
ResNet152提取全局特征,Faster-RCNN提取区域特征。
C:Separate Semantic Relations Module:
分为三部分:图注意力模块、像素级关系增强注意力、对象级关系增强注意力。
1、Graph Attention Module:使用多头注意力构建图注意力网络。
2、Attention for pixel-wise relations enhancement:即全局视觉图中特征的学习。
GAT学习每个像素受其他像素影响的程度,语义上对应的像素越多,图像中的注意值可能越高,从而促进像素级关系学习。
3、Attention for object-wise relations enhancement:更精细地匹配图像和文本,学习原始图像中物体之间的关系,并将其与文本短语对齐。
D: Joint Semantic Relations Module
这部分描述了以前的作品所缺乏的语义关系,即对象-全局关系。采用了多头图注意模块,目的是为了在区域对象和全局概念之间搭建桥梁, 融合过程有助于融合多头输出,过滤出更多有用的信息。
对统一特征图使用GAT,学习对象与全局之间的关系。
Fusion Process:

E:Learning Text Representation
采用GRU或BERT学习单词表示,通过图注意力网络学习词与词之间的关系,
F . Matching Process and Loss Function
triplet ranking loss

G. Testing Stage With Re-Ranking Scheme
对前 N个结果进行局部重排
结果
:MSCOCO and Flickr30K


2125

被折叠的 条评论
为什么被折叠?



