2021： ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

最新推荐文章于 2025-02-09 17:42:27 发布

weixin_42653320

最新推荐文章于 2025-02-09 17:42:27 发布

阅读量4.2k

点赞数 1

分类专栏：视觉问答参考文章文章标签： transformer 深度学习 cnn

本文链接：https://blog.csdn.net/weixin_42653320/article/details/123041729

版权

本文提出了一个名为ViLT的轻量级视觉和语言Transformer模型，该模型摒弃了传统的卷积和区域监督，通过简单的补丁投影处理视觉输入，实现了更快的运行时间和与现有模型相当或更好的性能。ViLT在视觉和语言下游任务中展示了竞争力，同时在参数效率和运行时间上具有显著优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

现有的VLP方法严重依赖图像特征提取过程，大多包含区域监督（如目标检测）和卷积的结构（如ResNet）。尽管在文献中忽略，但我们发现有两个问题：1）效率/速度，仅仅提取特征就比多模态交互步骤需要更多的计算；2）表达能力，因为它是视觉嵌入器及其预定义的视觉词汇的表达能力上限。本文，我们提出一个最小的VLP模型--视觉和语言Transformer(ViLT)，将视觉输入的处理大大简化为与处理文本输入相同的无卷积方式。我们证明了ViLT比以前的VLP模型快几十倍，且具有竞争力或更好的下游任务性能。

一、介绍

使用预训练和微调方式的这些模型通过图像文本匹配和掩码语言建模目标在图像和它们对齐的描述上预训练，并对视觉和语言下游任务微调，其中输入涉及两个模态。

大多VLP的研究都集中于通过增加视觉嵌入器的能力来提高性能。这种具有较重的视觉嵌入器的缺点往往被忽略，因为区域特征通常在训练时预先缓存，以减轻特征提取的负担，然而，这种限制在现实世界的应用中仍然很明显，因为野外的查询必须经历一个缓慢的提取过程。

因此，我们关注视觉输出的轻量级和快速嵌入上。最近的工作证明，使用一个简单的补丁的线性投影足够有效，在输入transformer之前嵌入像素。我们假设，在VLP模型中用于模态交互的transformer模块也可以处理视觉特征来代替卷积视觉嵌入器。

本文提出了一种视觉和语言Transformer(ViL)，以统一方式处理两个模态。与以前VLP模型的不同在于其浅层、无卷积嵌入像素级输入，删除仅用于视觉输入的深度嵌入器，可以显著减少模型的尺寸和运行时间。图1表示，我们的参数高效模型比具有区域特征的VLP模型快几十倍，至少比具有网格特征的VLP模型快四倍，同时在视觉和语言下游任务上表现出相似甚至更好的表现。

本文主要贡献如下：1）ViLT委托transformer模块提取和处理视觉特征，以代替单独的深度视觉嵌入器，是视觉和语言模型中最简单的架构。这种设计本质上有了显著的运行时间和参数效率。2）这是第一次在不使用区域特征或深度卷积视觉嵌入器的情况下，在视觉语言任务上实现了主导的性能。3）此外，我们首次通过实验表明，在VLP训练方案中前所未有的整个单词掩码和图像增强进一步推动了下游的性能。