【ViLT】 Vision-and-Language Transformer Without Convolution or Region Supervision -- 论文精读

10 篇文章 0 订阅
7 篇文章 0 订阅

Paper 链接ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Abstract

视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的表现。目前的VLP方法严重依赖于图像特征提取过程,其中大部分涉及到区域特征(如目标检测)和卷积架构(如ResNet)。虽然在文献中通常被忽略掉这一点,但我们发现它在(1)效率/速度方面存在问题,简单地提取输入特征需要比多模态交互步骤多得多的计算;(2)表达能力,因为它是视觉嵌入器及其预定义的视觉词汇的表达能力的上界。在本文中,我们提出了一个最小的VLP模型,视觉和语言编码器(Vision-and-Language Transformer, ViLT),视觉输入的处理被大大简化为与处理文本输入相同的无卷积的方式。结果表明,ViLT比以前的VLP模型快几十倍,且具有差不多或更好的下游任务性能。
代码和预训练权重已发布:https://github.com/dandelin/vilt

Introduction

VLP模型已广泛应用在视觉和文本的联合任务中。这些模型在【图像文本匹配】和【图像随机遮盖并补全】这两个目标上预训练。在包含视觉和语言两种模态的下游任务中进行微调。
在这里插入图片描述
论文主要贡献:

  • ViLT是迄今为止最简单的视觉语言模型架构,因为它用Transformer模块提取和处理视觉特征,而不是单独的深度视觉嵌入。这种设计具有显著的运行时间和参数效率。
  • 首次不使用局部监督特征和深度卷积视觉处理器,可以取得有竞争力的视觉和语言任务。
  • 此外,我们还初次实证发现,在VLP的训练框架下,WWM和图像增强可以进一步提升下游性能。

Background

作者团队基于两点对视觉-文本模型进行划分:1)在专有的参数或计算量下,两种模态是否有一致的表达能力;2)两种模态在网络中是否有交互。这两点组合包含4中类别,如下图:
在这里插入图片描述
VSE和SCAN 属于类别a:视觉和文本有独立的embedders,视觉embedders更重。通过简单的点乘或浅层注意力网络来计算两种模态的相似度;

CLIP 模型属于类别b:视觉和文本有独立且大小差不多的embedders,同样通过浅层网络来计算相似度。尽管CLIP在【看图说话】任务上有不错的表现,但在其他视觉-文本下游任务上表现一般。例如,在NLVR2任务上微调MLP头,测试集上的准确率只有 50.99 ± 0.38 50.99\pm0.38 50.99±0.38,对比随机准确率的50,显然这种表征不足以学习这类任务。这个结果也支持了我们的猜想:即便是来自于高性能的单模态嵌入,如果只是在输出上做简单的融合,也不足以学习复杂的视觉-语言任务。

与浅层交互的模型不同,VLP模型使用深度Transformer对图像和文本特征的交互进行建模,属于类别c。然而,除了交互模块,图像特征的提取和嵌入仍然使用CNN,这部分占用了大量的计算。

ViLT是类别d中的第一个模型,在原始像素上的表征层和文本一样【浅和轻】,该结构更多关注于模态的交互上。

Modality Interaction Schema

1)single-stream,视觉和文本特征先concat起来,然后应用一个网络层,如:Visual-BERT、UNITER
2)dual-stream,两种模态的特征不concat,引入了额外的参数,如:ViLBERT、LXMERT。

ViLT采用单流方法。

Visual Embedding Schema

在多数情况下,视觉嵌入仍然是VLP模型的瓶颈。我们通过引入分片映射来裁剪图像,取代之前的区域特征或网格特征,这类特征的抽取非常重。
在这里插入图片描述

Vision-and-Language Transformer

Model Overview

在这里插入图片描述

Pre-training Objectives

Image Text Matching:以0.5的概率随机替换文本-图像对应的样本,也就是说文本-图像一一对应的有一半样本,剩下一半的样本为随机替换的其他图像,作为二分类任务,计算负对数损失。
Masked Language Modeling:学习被盖住的text tokens,类似于bert,不再赘述。

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion and Future Work

我们提出的ViLT模型完全可以胜得过那些需要重依赖卷积嵌入结构的模型(如:Faster R-CNN、ResNets等)。除此之外,我们还呼吁未来的视觉-图像模型应该更多的在不同模态表征交互上下功夫,而不仅仅在提升单一模态表达上瞎芝麻内卷。作者团队还提出可能影响ViLT模型性能的几个因素:
1)模型可扩展度
2)视觉输入的遮盖
3)数据增强策略

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NLP_wendi

谢谢您的支持。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值