ROSITA:使用模态间与模态内知识融合增强V+L语义对齐

ROSITA是一种新的VLP方法,通过构建统一场景图融合模态间与模态内知识,增强跨模态细粒度语义对齐。它引入结构化知识掩蔽策略,结合图像与文本特征,提高预训练模型的性能,适用于多个V+L任务。
摘要由CSDN通过智能技术生成

一、研究背景

最近的两个VLP模型,OSCAR和ERNIE-ViL通过不同的方法从数据中引入了额外的知识来促进语义对齐的学习。OSCAR额外提取了预测得到的图像区域类别,并将其隐式地作为对齐文本词语的anchor。ERNIE-ViL显式地从文本中构建了一个场景图,并在预训练中更关注场景图中的关键词(如对象及其属性和关系)。在知识来源方面,它们都使用来自单一模态的模态内知识来增强语义对齐:OSCAR引入了图像模态的模态内知识,而ERNIE-ViL引入了文本模态的模态内知识。上述两种方法的成功带来了一个问题:是否可以利用来自两个模态的模态内知识和模态间知识来进一步增强语义对齐?
为此,ROSITA作为一个新的VLP方法被提出,该方法实现了数据-知识融合:在一个从数据中构建的统一场景图中同时编码模态间的知识与模态内的知识(cROSs- and InTrA-modal knowledge,ROSITA),以此增强跨模态的细粒度语义对齐。ROSITA引入了一种新的结构化知识掩蔽策略(Structural Knowledge Masking,SKM),将场景图结构知识作为先验,与现有VLP模型中常用的掩蔽语言建模任务(Masked Language Modeling,MLM)以及掩蔽区域建模任务(Masked Region Modeling,MRM)相集成。最终,ROSITA在三个典型的V+L任务和六个基准数据集上取得了很好的效果,此前先进的VLP方法。
图1 OSCAR、ERNIE-ViL、ROSITA方法对比

二、跨模态知识提取

ROSITA的跨模态知识提取依赖一个从图文对中构建出来的统一场景图。如图1所示,ROSITA的统一场景图包含一系列知识条目(Knowledge Entry),其中每个条目对应于一个连接着模态间知识与模态内知识的锚定对象(Anchor Object)。模态内知识是指锚定对象与其模态内语境之间的关系(例如在空间上相关的图像区域和上下文相关的文本词汇)。模态间知识指的是锚定对象和另一模态中与其语义相似的对象之间的关系(例如被预测为“草(grass)”的区域和“草原(steppe)”这个文本词语)。这些知识提取的过程如图2所示。
图2 ROSITA统一场景图构建与知识表示

统一场景图构建

对于一个给定的图文对,ROSITA采用统一的场景图结构 G = < V , E , S > G=<V,E,S> G=<V,E,S>来同时编码其模态内和模态间的知识。顶点集 V V V包含文本中的词语和图像中的区域,边集 E E E以及相似度集 S S S分别包含顶点之间的成对关系及其对应的相似度(如边的权值)。
ROSITA首先将图像和文本中的模态内知识分别表示为图像场景图和文本场景图。对于统一场景图的图像部分,ROSITA把从预先训练好的目标检测器中提取的区域视为V中的顶点,并计算每对区域之间的重叠度(Intersection over Union,IoU)作为相似度。IoU分数大于0的两个区域被认为在 E E E中有边缘,它们的IoU分数则作为它们在 S S S中的相似度。对于统一场景图的文本部分,ROSITA使用一个现成的场景图解析器从文本中获取文本场景图。文本场景图显式地编码文本中的对象、属性和关系关键字,并丢弃其他无信息的单词。文本场景图中的关键字将作为V中的顶点,而词与词之间的关系(如对象-属性、对象-关系)将作为E中的边。两个顶点之间的相似度是相应的对象-属性(或对象-关系)对在整个数据集上同时出现的频率。由于图像和文本模态的相似度分布可能有很大的不同,ROSITA分别对每个模态中的相似度进行归一化。
在图中建构了模态内知识之后,ROSITA进一步整合模态间知识使图像区域与它们的语义相关的单词对齐。由于缺少直接的模态间对齐监督信息,ROSITA在图像区域和文本词语之间建立了(pseudo)语义对齐,将图像区域的预测标签根据语义相似度与文本中的目标词对齐。ROSITA使用了一个预先训练好的词嵌入(Word Embedding)模型来计算对象标签和对象词之间的两两相似度。相似度评分的最小置信阈值被设置为0.5,以平衡准确率和召回率。超过阈值的图像区域-文本词对(Region-Word Pair)会在 E E E中形成跨模态边,相应的分数代表 S S S中的相似度。

知识表示

在统一场景图 G G G构建完成后,ROSITA将进行提取知识条目的过程。每个知识条目都与一个锚定对象相关联,首先从图中选出所有可能的锚定对象。锚定对象定义为在统一场景图中至少有一条跨模态边的顶点(图像区域或文本单词)。由于属性词和关系词并不会直接与任何图像区域相连接,因此锚定对象只能是文本中的对象词或图像区域。
给定一个锚定对象 v ∈ V v∈V vV,它相应的知识条目表示为一个子图 g ( v ) ⊆ G g(v)⊆G g(v)G,这个子图由 G G G中三个子图的并集得到:
g ( v ) = G c r o s s ( v ) ∪ G i n t r a ( v ) ∪ G i n t r a ( G c r o s s ( v ) ) g(v)=G_{cross} (v)∪G_{intra} (v)∪G_{intra} (G_{cross} (v)) g(v)=Gcross(v)Gintra(v)Gintra(Gcross(v))
其中 G c r o s s ( v ) G_{cross} (v) Gcross(v)包含 v v v和它通过跨模态边直接连接的上下文内容之间的关系。 G i n t r a ( v ) G_{intra} (v) Gintra(v)用模态内的边来建模v和与其直接连接的上下文内容之间的关系。 G i n t r a ( G c r o s s ( v ) ) G_{intra} (G_{cross} (v)) Gintra(Gcross(v))包括 G c r o s s ( v ) G_{cross} (v) Gcross(v)中的顶点和它们相应的模态内上下文内容之间的关系。值得注意的是,锚定对象v可以在两跳(Two Hops)内到达 g ( v ) g(v) g(v)中的每个顶点。

图3 ROSITA框架流程图

三、模态内与模态间数据知识融合细粒度语义对齐学习框架

基于从图文对数据中提取出来的知识条目,ROSITA提出了模态内与模态间数据知识融合细粒度语义对齐学习框架,以及结构化知识掩蔽(Structural Knowledge Masking,SKM)策略。SKM在屏蔽锚定对象的同时,选择性地屏蔽知识条目中的模态间和模态内的关联内容,该策略有效地消除了模态内部和跨模态的干扰信息,通过强制模型从相反的模态获取准确的信息,增强了细粒度的语义对齐。ROSITA的总体框架如图3所示。

图像与文本特征表示

与之前VLP模型中常用的策略一样,ROSITA中图像模态的输入是由在Visual Genome数据集上训练的Faster R-CNN目标检测模型在图像中提取出来的一系列图像区域特征。更具体地说,ROSITA从图像中提取置信度最高的 m m m个区域,其中的第 i i i个区域表示为一个视觉特征 f i ∈ R 2048 f_i∈\mathbb{R}^{2048} fiR2048和位置特征 p i ∈ R 5 p_i∈\mathbb{R}^5 piR5。随后两个线性映射将这两种特征融合为一个d维的图像特征 x i ∈ R d x_i∈\mathbb{R}^d xiRd
x i = W f T f i + W p T p i x_i=W_f^T f_i+W_p^T p_i xi=W

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值