2020:Oscar:Object-Semantics Aligned Pre-training for Vision-Language Tasks

OSCAR是一种新的视觉语言预训练(VLP)方法,通过使用图像中检测到的对象标签作为锚点,简化图像和文本的语义对齐学习。在多个视觉语言理解和生成任务上,OSCAR模型达到了新的最优结果。
摘要由CSDN通过智能技术生成

摘要

        学习图像-文本对的跨模态表示的大规模预训练方法在视觉-语言任务上越来越流行。现有的方法只是将图像区域特征和文本特征连接起来作为模型输入,以进行预训练,并使用自注意力以蛮力的方式学习图像-文本语义对齐。本文中,我们提出一种新的学习方法OSCAR使用图像中检测到的对象标记作为锚点,以显著简化对齐的学习。我们方法的动机是观察到图像中的显著对象可以被准确检测到,并且经常在成对的文本中提及。我们在650万文本-图像对的公共语料库中预训练一个OSCAR模型,并在下游任务上微调,在六个成熟的视觉-语言理解和生成任务上创造了最新结果。

一、介绍

        这些VLP模型是基于多层的Transformer,为预训练这种模型,现有的方法将图像区域特征和文本特征连接起来作为输入,并利用自注意力机制来学习语义对齐,然而,由于图像区域和文本之间缺乏显示的对齐信息,使得对齐建模为一个弱监督学习任务。此外,视觉区域往往过采样、噪声模糊,使得任务更具挑战性。

        本研究中,我们表明,通过引入图像检测到的对象标记作为锚点,可以显著提高跨模态表示的学习,以简化图像和文本间语义对齐的学习。我们提出一种新的VLP方法OSCAR,我们将训练样本定义为三元组,每个三元组包含一个单词序列,一组对象标记,和一组图像区域特征。方法的动机,例如在MSCOCO数据集上,一个图像及其配对文本共享至少1、2、3个对象的百分比分别为49.7%、22.2%、12.9%。整体设置如图1所示。

         这项工作是第一个探索在VLP上使用锚点对齐建模的工作。之前的工作在V+L任务上使用对象或图像标签来增强图像区域的特征表示。如,[46]使用对象预测概率作为一个软标签,并与其相应图像特征连接起来;[42]引入图像级的标签或属性来改进图像级的视觉表示。

        本工作的主要贡献可总结如下:(1)我们引入了OSCAR,一种强大的VLP方法,以学习通用的图像-文本表示。(2)我们开发了一个OSCAR模型,在多个V+L基准上实现了新的SoTA,显著优于现有方法。(3)我们进行广泛的实验和分析,以提供关于使用对象标签作为跨模态表示学习和下游任务的锚点的有效性的见解。

二、背景

        很多V+L任务的训练数据包含图像-文本对,如图2(a),预训练的目标是以自监督的方式学习图像-文本对的跨模态表示,通过微调来适应各种下游任务

        VLP通常使用多层的自注意力Transformer,来学习基于每个模态的嵌入的跨模态上下文表示。因此,VLP的成功从根本上依赖于输入单个嵌入的质量。现有的VLP方法以图像的视觉区域特征和成对文本的词嵌入作为输入,依赖自注意力机制学习图像-文本对齐,并产生跨模态上下文表示。

        现有VLP方法的两个问题:(1)模糊性,通常通过Faster R-CNN从过采样的区域种提取视觉区域特征

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值