【ViLT】 Vision-and-Language Transformer Without Convolution or Region Supervision -- 论文精读

NLP_wendi

已于 2022-08-30 11:31:50 修改

阅读量949

点赞数

分类专栏： CV Transformer 深度学习文章标签： transformer 深度学习计算机视觉

于 2022-08-25 20:36:06 首次发布

本文链接：https://blog.csdn.net/qq_32275289/article/details/126531224

版权

深度学习同时被 3 个专栏收录

32 篇文章 10 订阅

订阅专栏

Transformer

10 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

Paper 链接：ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Abstract

视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的表现。目前的VLP方法严重依赖于图像特征提取过程，其中大部分涉及到区域特征(如目标检测)和卷积架构(如ResNet)。虽然在文献中通常被忽略掉这一点，但我们发现它在(1)效率/速度方面存在问题，简单地提取输入特征需要比多模态交互步骤多得多的计算;(2)表达能力，因为它是视觉嵌入器及其预定义的视觉词汇的表达能力的上界。在本文中，我们提出了一个最小的VLP模型，视觉和语言编码器(Vision-and-Language Transformer, ViLT)，视觉输入的处理被大大简化为与处理文本输入相同的无卷积的方式。结果表明，ViLT比以前的VLP模型快几十倍，且具有差不多或更好的下游任务性能。
代码和预训练权重已发布：https://github.com/dandelin/vilt

Introduction

VLP模型已广泛应用在视觉和文本的联合任务中。这些模型在【图像文本匹配】和【图像随机遮盖并补全】这两个目标上预训练。在包含视觉和语言两种模态的下游任务中进行微调。
在这里插入图片描述
论文主要贡献：

ViLT是迄今为止最简单的视觉语言模型架构，因为它用Transformer模块提取和处理视觉特征，而不是单独的深度视觉嵌入。这种设计具有显著的运行时间和参数效率。
首次不使用局部监督特征和深度卷积视觉处理器，可以取得有竞争力的视觉和语言任务。
此外，我们还初次实证发现，在VLP的训练框架下，WWM和图像增强可以进一步提升下游性能。

Background

作者团队基于两点对视觉-文本模型进行划分：1）在专有的参数或计算量下，两种模态是否有一致的表达能力；2）两种模态在网络中是否有交互。这两点组合包含4中类别，如下图：
在这里插入图片描述
VSE和SCAN 属于类别a：视觉和文本有独立的embedders，视觉embedders更重。通过简单的点乘或浅层注意力网络来计算两种模态的相似度；

CLIP 模型属于类别b：视觉和文本有独立且大小差不多的embedders，同样通过浅层网络来计算相似度。尽管CLIP在【看图说话】任务上有不错的表现，但在其他视觉-文本下游任务上表现一般。例如，在NLVR2任务上微调MLP头，测试集上的准确率只有 $50.99\pm0.38$ ，对比随机准确率的50，显然这种表征不足以学习这类任务。这个结果也支持了我们的猜想：即便是来自于高性能的单模态嵌入，如果只是在输出上做简单的融合，也不足以学习复杂的视觉-语言任务。

与浅层交互的模型不同，VLP模型使用深度Transformer对图像和文本特征的交互进行建模，属于类别c。然而，除了交互模块，图像特征的提取和嵌入仍然使用CNN，这部分占用了大量的计算。

ViLT是类别d中的第一个模型，在原始像素上的表征层和文本一样【浅和轻】，该结构更多关注于模态的交互上。

Modality Interaction Schema

1）single-stream，视觉和文本特征先concat起来，然后应用一个网络层，如：Visual-BERT、UNITER
2）dual-stream，两种模态的特征不concat，引入了额外的参数，如：ViLBERT、LXMERT。

ViLT采用单流方法。

Visual Embedding Schema

在多数情况下，视觉嵌入仍然是VLP模型的瓶颈。我们通过引入分片映射来裁剪图像，取代之前的区域特征或网格特征，这类特征的抽取非常重。
在这里插入图片描述

Vision-and-Language Transformer

Model Overview

在这里插入图片描述

Pre-training Objectives

Image Text Matching：以0.5的概率随机替换文本-图像对应的样本，也就是说文本-图像一一对应的有一半样本，剩下一半的样本为随机替换的其他图像，作为二分类任务，计算负对数损失。
Masked Language Modeling：学习被盖住的text tokens，类似于bert，不再赘述。

Experiments

在这里插入图片描述

Conclusion and Future Work

我们提出的ViLT模型完全可以胜得过那些需要重依赖卷积嵌入结构的模型（如：Faster R-CNN、ResNets等）。除此之外，我们还呼吁未来的视觉-图像模型应该更多的在不同模态表征交互上下功夫，而不仅仅在提升单一模态表达上瞎芝麻内卷。作者团队还提出可能影响ViLT模型性能的几个因素：
1）模型可扩展度
2）视觉输入的遮盖
3）数据增强策略

NLP_wendi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【ViLT】 Vision-and-Language Transformer Without Convolution or Region Supervision -- 论文精读

视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的表现。目前的VLP方法严重依赖于图像特征提取过程，其中大部分涉及到区域特征(如物体检测)和卷积架构(如ResNet)。虽然在文献中通常被忽略掉这一点，但我们发现它在(1)效率/速度方面存在问题，简单地提取输入特征需要比多模态交互步骤多得多的计算;(2)表达能力，因为它是视觉嵌入器及其预定义的视觉词汇的表达能力的上界。.....................
复制链接

扫一扫