文章题目、出处:
Constructing Phrase-level Semantic Labels to Form Multi-Grained Supervision for Image-Text Retrieval
论文地址:https://arxiv.org/abs/2109.05523
目的:
利用多粒度信息增强图像文本之间的匹配关系
结论:
通过场景图构造文本的短语级表示,进一步挖掘了文本之间的关系,提升了图文匹配的准确性。
背景:
现有图像文本主要依靠句子层面的监督来区分插查询图像的匹配和不匹配的图像。图像和句子之间的语义不匹配通常发生在更细的粒度上,例如,短语层面。
方法:
在实际中,作者为查询图像构造多粒度的语义标签,两个层次,即句子层次和短语层次。在句子层面,作者用整个句子作为标签。在短语层面,构造句子的文本场景图,从图中提取多种形式的实体和三元组作为标签。
为了利用句子和短语对跨模态表征学习进行监督,提出了基于语义结构感知的多模态transformer(SSAMT)来建立视觉和语言的多粒度模型。在语言方面,作者将句子及其短语级联起来作为输入,而图像及其区域都用于视觉方面。Mask transformer用于建模两种模态不同粒度的语义单元,并提出了新的注意机制用于模态内和模态间的相互作用。
该模型学习视觉模式(图像和区域)和语言(句子和短语)在多个尺度(全局和局部)的表示。
它包括三个主要组成部分,即多粒度语义标签构造、具有多粒度语义的跨模态表示学习和多尺度匹配损失(global and local matching)。
在原有的transformer中,没有不同的粒度或结构。在作者的例子中,作者使用短语节点来捕获短语中单词的语义,使用依赖于模式的全局节点分别建模图像和文本的整体语义。这些节点用于多粒度语义建模,并且严重依赖于结构。 为了保留它们的意义,作者放弃原始transformer采用mask transformer。
(1)在视觉侧,每个区域节点对全局句子节点是不可见的。
(2)语言侧,每个短语和token节点对全局图像节点不可见。
(3)每个短语节点对短语本身不包含的任何其他单词都是不可见的。
采用模态内关系模型分别对图像和文本进行编码,作为模态间关系模型的补充。输出图像文本的全局表示向量。
基于多粒度语义标签,利用全局匹配、局部匹配和短语匹配三种匹配评分来度量图文对的相似度。
Loss:
三元损失:拉进正样本的距离,拉远负样本的距离。
结果
其他:
图文检索领域的主要研究方向是通过更好的特征提取和跨模态交互来捕捉跨模态语义关联