2021: ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge

最新推荐文章于 2024-10-09 19:45:47 发布

weixin_42653320

最新推荐文章于 2024-10-09 19:45:47 发布

阅读量800

点赞数 3

分类专栏：视觉问答参考文章文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_42653320/article/details/121915595

版权

ROSITA是一种新的视觉和语言预训练（VLP）方法，通过集成跨模态和模态内知识，增强语义对齐。它使用结构化知识掩码（SKM）策略，消除模态内和跨模态干扰，提高模型在视觉问答、图像文本检索等任务上的表现。实验表明，ROSITA在多个基准数据集上优于现有最先进的VLP模型。

摘要由CSDN通过智能技术生成

摘要

视觉和语言预训练的目的是从大量图像-文本对中学习通用的多模态表示，虽然人们已经提出了各种成功的尝试，学习图像-文本对间的细粒度语义对齐在这些方法中起着关键作用。然而，大多数VLP方法没有充分利用图像-文本对中的内在知识，这限制了学习的对齐的有效性，并进一步限制了这些模型的表现。我们引入一种新的VLP方法，称为ROSITA，它将跨模态和模态间的知识集成在一个统一的场景图中，以增强语义对齐。具体地，我们引入一种新的结构化的知识掩码（SKM）策略，使用场景图结构作为一种先验来执行掩码语言（区域）建模，通过消除模态内和跨模态的干扰信息来增强语义对齐。大量消融研究和综合分析验证了ROSITA在语义对齐上的有效性。在域内和域外数据集上预训练过的ROSITA在6个基准数据集的三个典型的视觉和语言任务上显著优于现有的最先进的VLP方法。

一、介绍

由于BERT在自然语言理解中的预训练然后微调的成功，之后对开发VLP模型来解决广泛的视觉和语言任务越来越感兴趣。特别是，这些方法首先在大型图像-文本预料库上对基于transformer的模型进行预训练，以学习任务无关的表示，然后在下游的V+L任务上对模型微调，如视觉问答、图像文本检索和参考表达理解。与早期只使用一个V+L任务的方法相比，VLP模型可以跨多种任务泛化，并在各自任务上实现更好的表现。

学习图像区域和文本单词之间的细粒度语义对齐在V+L任务上起着关键作用，然而，手动注释这种密集对齐是昂贵的，且在大规模场景下不现实。因此，大多现有VLP方法使用弱监督学习策略来隐式地建模对齐，它们采用多层transformer作为主干学习来自粗粒度图像-文本匹配监督的语义对齐。此外，模态内和跨模态的干扰使得语义对齐的学习更有挑战性。

为促进语义对齐的学习，最近的两种VLP方法OSCAR和ERNIL-ViL以不同方式引入额外的知识。具体地，OSCAR从图像中提取预测的区域标签，并使用这些标签作为锚点来隐式地对齐文本词。ERNIE-ViL明确地从文本中构建一个场景图，并在其预训练目标中更强调场景图中的关键词（如对象及其它们的属性和关系）。在知识来源方面，两种都使用单个模态的模态内知识来增强语义对齐：OSCAR建模图像模态内的模态内知识，而ERNIL-ViL建模文本模态内的模态内知识。上述两种方法的成功引发了一个问题：是否有可能利用这两种模态的模态内知识和跨模态知识来进一步增强语义对齐？

本文中，我们提出一种新的称为ROSITA的VLP方法，将跨模态和模态内知识同时编码在一个统一的场景图中，图1所示，图包含一组知识条目，每个条目对应于一个锚定对象及其相关的跨模态和模态内知识。模态内知识是指锚定对象和它的模态内上下文间的关系（如空间相关的区域或上下文相关的单词），跨模态知识对应锚定对象和它的来自相反模态的语义相似的对象间的关系（如预测为“草”的区域和单词“草原”）。

虽然我们已经获得了一组知识条目，但如何有效地使用它们来增强语义对齐仍然是很重要的。我们提出一种新的结构化知识掩码（SKM）策略，可以与掩码语言建模任务无缝集成，这在现有的VLP方法中经常使用[7,27]。原则上，SKM确定地掩蔽锚定对象，同时有选择地在知识条目中掩码它的跨模态和模态内的上下文。这种策略有效地消除模态内和跨模态的干扰信息，并通过强制执行从相反模态中获得正确的信息来增强语义对齐。

本文的贡献如下：（1）我们提出一种新的VLP方法ROSITA，同时包含跨模态和模态内的知识，以增强不同模态间的语义对齐。（2）我们引入一种新的结构化知识掩码策略，使用场景图结构做为一种先验，与现有的VLP方法中常用的掩码语言（区域）建模任务进行集成。（3）在六个基准数据集上的三个典型的V+L任务上取得了最好的结果，由于现有的最先进的VLP方法。

二、相关工作

单模态预训练 如在ImageNet上预训练好的VGGNet或ResNet可以很好的推广到各种下游任务中。在NLP领域，基于多层transformer结构，提出很多著名的预训练方法（如BERT、GPT和XLNet）。与CV任务中的监督预训练范式不同，NLP任务中的预训练范式是自监督的，目的是训练一个模型来基于它们上下文预测单词，而不引入人类注释。特别地，BERT引入了一种新的掩码语言建模（MLM）任务，随机掩码输入单词，并根据它们的上下文预测这些掩码单词。这种MLM策略自然地被VLP方法所继承。

视觉和语言预训练（VLP） 不同于NLP任务中的纯自监督范式，