SimVLM：拒绝各种花里胡哨！CMU&Google提出弱监督极简VLP模型，在多个多模态任务上性能SOTA...

最新推荐文章于 2024-07-06 03:08:00 发布

我爱计算机视觉

最新推荐文章于 2024-07-06 03:08:00 发布

阅读量614

点赞数 1

文章标签：大数据计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/120072965

版权

关注公众号，发现CV技术之美

本文介绍论文『SimVLM: Simple Visual Language Model Pretraining with Weak Supervision』，由 CMU&Google 提出弱监督极简 VLP 模型，SimVLM，拒绝各种花里胡哨！在多个多模态任务上性能 SOTA。

详细信息如下：

论文链接：https://arxiv.org/abs/2108.10904
项目链接：尚未开源

导言：

随着视觉和文本表示联合建模的进展，视觉语言预训练(VLP)在许多多模态下游任务上取得了非常好的性能。然而，对包括图像描述和区域标签在内的标注信息，限制了这一方向的进一步方法。此外。随着引入多个数据集特定的目标，预训练过程也变得更加复杂。在这项工作中，作者放宽了这些约束，提出了一个极简的预训练框架，名为Simple Visual Language Model (SimVLM)。

与之前的工作不同，SimVLM通过利用大规模的弱监督来降低训练的复杂性，并使用单个前缀语言建模目标来进行端到端训练。在不使用额外数据或特定任务定制的情况下，SimVLM模型结果显著优于以前的预训练方法，并在多个的鉴别和生成视觉语言基准数据集上取得了新的SOTA的结果（VQA (+3.74% vqa-score), NLVR2 (+1.17% ), SNLI-VE (+1.37% ) , image captioning (+10.1% CIDEr )）。此外，作者还证明了SimVLM获得了较强的泛化和迁移能力，能够进行包括开放式视觉问题回答等zero-shot任务。

Motivation

基于文本任务的自监督学习已经推动了自然语言处理(NLP)任务的SOTA性能到一个新的阶段。一些成功的方法（比如BERT）是在大规模无标签文本的数据集上用MLM任务进行预训练，然后在下游任务上微调。虽然这种预训练-微调范式已经被广泛采用，但最近关于自回归语言模型(LM)的工作（比如GPT-3）展现了更强大的性能，并且没有进行微调，表明文本引导的zero-shot泛化是一个很有前途的替代方案。

受文本表示预训练的启发，研究者开始构建多模态预训练模型。目前，也有一系列工作探索了视觉语言预训练(VLP)，学习两种模态的联合表示，然后在视觉语言(VL)基准数据集上微调。为了捕获图像和文本之间的对齐，以前的方法利用了多个类型的双模态的标记数据集。处理步骤通常如下：

首先，使用目标检测数据集来训练监督训练目标检测器(OD)，允许从图像中进一步提取感兴趣区域(ROI)特征。
接下来，使用对齐的图像-文本对的数据集进行模型的MLM预训练，该模型通常以提取的ROI特征和成对文本的concat结果作为输入。
此外，由于标注数据的规模有限，为了提高性能，还引入了各种特定于任务的辅助损失。

这些设计使VLP的预训练复杂化，为进一步提高performance创造了瓶颈。更重要的是，这种基于预训练-微调的方法通常缺乏zero-shot的泛化学习能力。

为了解决这一问题，还有一些工作利用从网络爬取的弱标记/对齐数据进行预训练，在图像分类和图像文本检索方面获得了良好的性能和一定的zero-shot学习能力。

鉴于现有技术的这些缺点，作者希望建立一个VLP模型，具有下面三个优点：

可以无缝地插入到预训练-微调范式中，并在标准VL基准数据集上实现比较好的性能；
不像以前的方法那样需要一个复杂的预训练目标；
在跨模态设置中具有文本引导的zero-shot泛化的能力。

因此作者提出了SimVLM，Simple Visual Language Model，通过仅利用弱对齐的图像-文本对上的语言建模，大大简化了VLP的训练流程。SimVLM由以下组件组成：

Objective ，它使用前缀语言建模(PrefixLM)的单一目标，进行端到端训练。它不仅可以像GPT-3那样自然地执行文本生成，而且还可以像BERT那样以双向的方式处理上下文信息。
Architecture ，它采用了ViT的结构，直接将原始图像作为输入。这样的模型也适合大规模的数据，并很容易与PrefixLM目标兼容。
Data ，这些设置减轻了目标检测的需求，并允许模型利用大规模的弱标记数据集，这对zero-shot泛化有更好的效果。

SimVLM不仅更简单，既不需要目标检测预训练，也不需要辅助损失，而且还获得了比以往工作更好的性能。在实验结果上看，SimVLM优于现有的VLP模型，并在6个VL基准测试上实现了SOTA性能，而无需额外的数据或任务特定的设置。此外，它在视觉语言理解中获得了更强的泛化性能，支持zero-shot图像字幕和开放式VQA。本文的工作表明，通过一个简单的预训练框架，模型可以获得强大的视觉语言理解能力。

方法

2.1背景

双向Mask语言建模(MLM)一直是文本表示学习中最流行的自监督训练目标函数之一。正如BERT所证明的那样，它是基于去噪自动编码器的想法，从而训练模型以恢复文档中损坏的token。具体来说，给定一个文本序列x，将随机采样一个token子集

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
SimVLM：拒绝各种花里胡哨！CMU&Google提出弱监督极简VLP模型，在多个多模态任务上性能SOTA...

关注公众号，发现CV技术之美本文介绍论文『SimVLM: Simple Visual Language Model Pretraining with Weak Supervision』，由...
复制链接

扫一扫