SimVLM:拒绝各种花里胡哨!CMU&Google提出弱监督极简VLP模型,在多个多模态任务上性能SOTA...

关注公众号,发现CV技术之美


本文介绍论文『SimVLM: Simple Visual Language Model Pretraining with Weak Supervision』,由 CMU&Google 提出弱监督极简 VLP 模型,SimVLM,拒绝各种花里胡哨!在多个多模态任务上性能 SOTA。

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2108.10904

  • 项目链接:尚未开源

导言:

       随着视觉和文本表示联合建模的进展,视觉语言预训练(VLP)在许多多模态下游任务上取得了非常好的性能。然而,对包括图像描述和区域标签在内的标注信息,限制了这一方向的进一步方法。此外。随着引入多个数据集特定的目标,预训练过程也变得更加复杂。在这项工作中,作者放宽了这些约束,提出了一个极简的预训练框架,名为Simple Visual Language Model (SimVLM)。

      与之前的工作不同,SimVLM通过利用大规模的弱监督来降低训练的复杂性,并使用单个前缀语言建模目标来进行端到端训练。在不使用额外数据或特定任务定制的情况下,SimVLM模型结果显著优于以前的预训练方法,并在多个的鉴别和生成视觉语言基准数据集上取得了新的SOTA的结果(VQA (+3.74%  vqa-score), NLVR2 (+1.17%  ), SNLI-VE (+1.37%  ) , image captioning (+10.1% CIDEr ))。此外,作者还证明了SimVLM获得了较强的泛化和迁移能力,能够进行包括开放式视觉问题回答等zero-shot任务。

      01      

Motivation

基于文本任务的自监督学习已经推动了自然语言处理(NLP)任务的SOTA性能到一个新的阶段。一些成功的方法(比如BERT)是在大规模无标签文本的数据集上用MLM任务进行预训练,然后在下游任务上微调。虽然这种预训练-微调范式已经被广泛采用,但最近关于自回归语言模型(LM)的工作(比如GPT-3)展现了更强大的性能,并且没有进行微调,表明文本引导的zero-shot泛化是一个很有前途的替代方案。

受文本表示预训练的启发,研究者开始构建多模态预训练模型。目前,也有一系列工作探索了视觉语言预训练(VLP),学习两种模态的联合表示,然后在视觉语言(VL)基准数据集上微调。为了捕获图像和文本之间的对齐,以前的方法利用了多个类型的双模态的标记数据集。处理步骤通常如下:

  • 首先,使用目标检测数据集来训练监督训练目标检测器(OD),允许从图像中进一步提取感兴趣区域(ROI)特征。

  • 接下来,使用对齐的图像-文本对的数据集进行模型的MLM预训练,该模型通常以提取的ROI特征和成对文本的concat结果作为输入。

  • 此外,由于标注数据的规模有限,为了提高性能,还引入了各种特定于任务的辅助损失。

这些设计使VLP的预训练复杂化,为进一步提高performance创造了瓶颈。更重要的是,这种基于预训练-微调的方法通常缺乏zero-shot的泛化学习能力。

为了解决这一问题,还有一些工作利用从网络爬取的弱标记/对齐数据进行预训练,在图像分类和图像文本检索方面获得了良好的性能和一定的zero-shot学习能力。

鉴于现有技术的这些缺点,作者希望建立一个VLP模型,具有下面三个优点:

  • 可以无缝地插入到预训练-微调范式中,并在标准VL基准数据集上实现比较好的性能;

  • 不像以前的方法那样需要一个复杂的预训练目标;

  • 在跨模态设置中具有文本引导的zero-shot泛化的能力。

因此作者提出了SimVLM,Simple Visual Language Model,通过仅利用弱对齐的图像-文本对上的语言建模,大大简化了VLP的训练流程。SimVLM由以下组件组成:

  • Objective ,它使用前缀语言建模(PrefixLM)的单一目标,进行端到端训练。它不仅可以像GPT-3那样自然地执行文本生成,而且还可以像BERT那样以双向的方式处理上下文信息。

  • Architecture ,它采用了ViT的结构,直接将原始图像作为输入。这样的模型也适合大规模的数据,并很容易与PrefixLM目标兼容。

  • Data ,这些设置减轻了目标检测的需求,并允许模型利用大规模的弱标记数据集,这对zero-shot泛化有更好的效果。

SimVLM不仅更简单,既不需要目标检测预训练,也不需要辅助损失,而且还获得了比以往工作更好的性能。在实验结果上看,SimVLM优于现有的VLP模型,并在6个VL基准测试上实现了SOTA性能,而无需额外的数据或任务特定的设置。此外,它在视觉语言理解中获得了更强的泛化性能,支持zero-shot图像字幕和开放式VQA。本文的工作表明,通过一个简单的预训练框架,模型可以获得强大的视觉语言理解能力。


      02      

方法


2.1背景

双向Mask语言建模(MLM)一直是文本表示学习中最流行的自监督训练目标函数之一。正如BERT所证明的那样,它是基于去噪自动编码器的想法,从而训练模型以恢复文档中损坏的token。具体来说,给定一个文本序列x,将随机采样一个token子集

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值