图文检索论文阅读

文章题目、出处:

Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval
2021 ACM MM

目的:

当前跨模态检索大部分是基于片段的(fragment),图像region和文本word进行交互,利用注意力机制希望能进行一一对应。他们把图像region单个去看,这就导致模型没有建模图像整体的语义理解

结论:

本文从树的角度对图像和文本进行特征学习,为图像的树结构化信息表示提供了思路。

背景:

目前先进的图像-句子检索方法隐式对齐图像中的区域和句子中的单词等视觉-文本片段,并采用注意模块突出跨模态语义对应的相关性。
通过两个方面考虑解决 1、构建内在结构、关系
2、寻求明确的模态间结构和语义对应。

方法

在这里插入图片描述

为了学习视觉文本嵌入和跨模态对齐,SMFEA创建了一个多模态结构化模块,该模块具有共享的上下文感知引用树。通过构造视觉上下文感知结构化树编码器(vcs-tree)和文本上下文感知结构化树编码器(tcs-tree) ,利用共享标签来建立视觉和文本片段之间的关系,从而可以共同学习和优化视觉和文本特征。我们利用多模态树结构,通过最大化对应模态树节点之间的语义和结构相似性,显式地对齐异构的图像句子数据。

以文本的语法树为监督,构建图像和文本的树,得到图像文本结构化的全局语义表示。

在这里插入图片描述

图像输入特征:利用Faster RCNN提取的图像区域特征,以区域特征的平均为query,进行自注意力的特征学习得到图像的全局表示VD。

文本输入特征:双向GRU隐状态向量平均作为单词特征。与图像类似,基于自注意力机制生成文本全局表示SD。

上下文特征学习:在文本语法树的监督下,对图像和文本构建结构化特征表示树,新构建的图像和文本树是结构相同的,都是三层七头。结构相同是为了保证模态间的一致性。

共享语义树的构建:为了保证图像和文本的特征的正确性,构建文本的语法树作为监督信息。这里主要利用的是斯坦福的句法解析工具。

实例级视觉特征VD首先通过线性映射函数映射到不同的语义空间,作为 vcs 树中不同层次的输入:

构建图像树(VCS-Tree)和文本树(TCS-Tree):

首先,两者框架都是三层七头,最底层表示的片段信息(fragment),中间层和顶层是关系信息(relation)。树的最开始输入是之前基于自注意力机制获得的图像文本全局表示,

第二步是基于LSTM对树进行编码,信息的传递与更新。
整合所有节点信息得到视觉表示VT,同样也能用一样的方式得到文本表示ST。

CAC:获取图像文本结合常识知识的表示得到VC和SC。
特征的融合:现在图像和文本都有原始的特征表示VD和SD,树结构表示VT和ST,结合知识的表示VC和SC,利用简单的加权求和对他们进行融合。

结果

在这里插入图片描述

其他:

文本是有语法结构的可以构建语法树,而图像是连续空间,没有语法结构,无法直接构建树。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值