2020：Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks

最新推荐文章于 2023-09-13 17:36:07 发布

weixin_42653320

最新推荐文章于 2023-09-13 17:36:07 发布

阅读量903

点赞数 1

分类专栏：视觉问答参考文章文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/121168921

版权

OSCAR是一种新的视觉语言预训练（VLP）方法，通过使用图像中检测到的对象标签作为锚点，简化图像和文本的语义对齐学习。在多个视觉语言理解和生成任务上，OSCAR模型达到了新的最优结果。

摘要由CSDN通过智能技术生成

摘要

学习图像-文本对的跨模态表示的大规模预训练方法在视觉-语言任务上越来越流行。现有的方法只是将图像区域特征和文本特征连接起来作为模型输入，以进行预训练，并使用自注意力以蛮力的方式学习图像-文本语义对齐。本文中，我们提出一种新的学习方法OSCAR，使用图像中检测到的对象标记作为锚点，以显著简化对齐的学习。我们方法的动机是观察到图像中的显著对象可以被准确检测到，并且经常在成对的文本中提及。我们在650万文本-图像对的公共语料库中预训练一个OSCAR模型，并在下游任务上微调，在六个成熟的视觉-语言理解和生成任务上创造了最新结果。

一、介绍

这些VLP模型是基于多层的Transformer，为预训练这种模型，现有的方法将图像区域特征和文本特征连接起来作为输入，并利用自注意力机制来学习语义对齐，然而，由于图像区域和文本之间缺乏显示的对齐信息，使得对齐建模为一个弱监督学习任务。此外，视觉区域往往过采样、噪声模糊，使得任务更具挑战性。

本研究中，我们表明，通过引入图像检测到的对象标记作为锚点，可以显著提高跨模态表示的学习，以简化图像和文本间语义对齐的学习。我们提出一种新的VLP方法OSCAR，我们将训练样本定义为三元组，每个三元组包含一个单词序列，一组对象标记，和一组图像区域特征。方法的动机，例如在MSCOCO数据集上，一个图像及其配对文本共享至少1、2、3个对象的百分比分别为49.7%、22.2%、12.9%。整体设置如图1所示。

这项工作是第一个探索在VLP上使用锚点对齐建模的工作。之前的工作在V+L任务上使用对象或图像标签来增强图像区域的特征表示。如，[46]使用对象预测概率作为一个软标签，并与其相应图像特征连接起来；[42]引入图像级的标签或属性来改进图像级的视觉表示。

本工作的主要贡献可总结如下：（1）我们引入了OSCAR，一种强大的VLP方法，以学习通用的图像-文本表示。（2）我们开发了一个OSCAR模型，在多个V+L基准上实现了新的SoTA，显著优于现有方法。（3）我们进行广泛的实验和分析，以提供关于使用对象标签作为跨模态表示学习和下游任务的锚点的有效性的见解。