2021:VinVL: Revisiting Visual Representations in Vision-Language Models

本文深入探讨了视觉语言模型中视觉表示的改进,提出了一种新型对象检测模型,预训练在更大、更丰富的数据集上,以提升视觉特征。实验表明,新模型在多种视觉语言任务上显著提升了性能,特别是在VQA和GQA等任务上创造了新纪录。此外,研究还揭示了视觉特征在模型中的关键作用。
摘要由CSDN通过智能技术生成

摘要

        本文详细研究了视觉语言(VL)任务的视觉表示的改进,并开发一种改进的对象检测模型以提供图像的对象为中心的表示。与最广泛使用的bottom-up和top-down模型相比,新的模型更大,为VL任务设计的更好,在更大的训练语料库(结合多个公共注释的对象检测数据集)上预训练,因此,它可以生成更丰富的视觉对象和概念集合的表示。以前的VL研究主要关注改善视觉-语言融合模型,而不影响对象检测模型的改进,但我们发现在VL模型中视觉特征非常重要。在我们的实验中,我们将新的对象检测模型输入到一个基于Transformer的VL融合模型OSCAR,并利用一个改善的方法OSCAR+来预训练VL模型,并在广泛的下游VL任务上对其进行微调。我们的结果表明,新的视觉特征显著提高了所有VL任务的性能,在7个公共基准上创建了最先进的结果。

一、介绍

        视觉语言预训练(VLP)已被证明对广泛的VL任务有效,VLP通常包括两阶段:(1)一个对象检测模型进行预训练,将图像和图像中的视觉对象编码为特征向量,(2)一个跨模态融合模型进行预训练,以融合文本和视觉特征。本文主要关注改善对象为中心的视觉表示,并提出一个全面的实证研究,以证明视觉特征在VL模型中的重要性。

        在上述工作中,一个广泛使用的对象检测(OD)模型在VisualGenome数据集上训练,OD模型提供了一个以对象为中心的图像表示,并已在许多VL模型中被用作一个黑盒。本工作中,我们预训练一个基于ResNeXt-152 C4结构的大规模对象属性的检测模型。与[2]的OD模型相比,新模型为VL任务设计更好,更大,在更多的数据上训练,结合多个公共对象检测数据集,包括COCO,OI,Objects365和VG。结果,我们的OD模型在广泛的VL任务上实现了更好的结果,如表1所示。与其他典型的OD模型相比,如在OpenImages上训练的X152-FPN,我们的新模型可以编码更多样化的视觉对象和概念集合(例如,为1848个对象类别和524个属性类别产生视觉表示),如图1。

         为验证新OD模型的有效性,我们在一个包含885万的文本-图像对的公共数据集上预训练一个基于Transformer的跨模态融合模型OSCAR+,其中这些图像的视觉表示通过新OD模型产生,并在OSCAR+预训练期间固定,然后,对已训练过的OSCAR+进行微调,用于广泛的下游任务,如VQA,GQA,NLVR2,和COCO文本图像检索,和VL生成任务,如COCO图像标注和NoCaps。我们的结果表明,新的OD模型产生的以对象为中心的表示显著提高所有VL任务的性能,通常在强大的基线使用经典OD模型[2],创建最新结果,包括GQA没有发布的预训练模型已经超过故意设计的神经状态机(NSM)[12]。我们将向研究界发布新的OD模型。

        本工作的主要贡献总结如下:(1)我们提出了一种全面的实证研究来证明视觉特征在VL模型中的重要性;(2)我们开发了一种新的对象检测模型,它们相比于经典的OD模型可以产生更好的视觉特征,并大大提高了跨多个公共基准的所有主要VL任务的最新结果;(3)我们对预训练过的对象检测模型进行详细的消融实验,以研究由于对象类别的多样性、视觉属性训练、训练数据规模、模型尺寸和模型结构方面的不同设计选择,对性能改进的相对贡献。

 二、改善视觉语言(VL)中的视觉(V)

        基于深度学习的VL模型通常包含两个模块:一个图像理解模块Vision和一个跨模态理解模块VL:

 其中,Img和w分别是视觉和语言模态的输入,Vision模块的输出包含q和v,q是图像的语义表示,如标签或接策的对象,v分布表示图像在高维潜在空间的表示&#

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值