An Empirical Study of Training End-to-End Vision-and-Language Transformers

最新推荐文章于 2024-07-05 14:37:41 发布

但愿此生，从未邂逅

最新推荐文章于 2024-07-05 14:37:41 发布

阅读量332

点赞数 1

文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_56551150/article/details/129897484

版权

An Empirical Study of Training End-to-End Vision-and-Language Transformers

摘要

视觉和语言 (VL) 预训练已被证明在各种 VL 下游任务上非常有效。虽然最近的工作表明，完全基于 Transformer 的 VL 模型比以前的基于区域的方法更有效，但它们在下游任务上的性能通常会显着下降。在本文中，我们提出了 METER（多模态端到端转换器），通过它，我们系统地研究如何以端到端的方式设计和预训练一个完全基于变压器的 VL 模型。具体来说，我们沿着多个维度剖析模型设计：视觉编码器（例如 CLIP-ViT、Swin 转换器）、文本编码器（例如 RoBERTa、DeBERTa）、多模态融合（例如，合并注意力与共同注意）、架构设计（例如，仅编码器与编码器-解码器）和预训练目标（例如，掩码图像建模）。我们对广泛的VL任务进行了全面的实验，并提供了关于如何在保持快速推理速度的同时训练高性能VL转换器的见解。值得注意的是，METER 在 VQA v2 test-std 集上仅使用 4M 图像进行预训练达到了 77.64% 的准确率，超过了最先进的基于区域特征的 VinVL 模型 +1.04%，比之前的最佳完全基于变压器的 ALBEF 模型高出 +1.6%.

研究背景

在这里插入图片描述

背景

视觉和语言任务需要ai系统理解输入图像和文本内容。视觉和语言预训练（VLP）现在已成为解决这些任务的实际做法。
Transformers在自然语言处理中很普遍，并且最近在计算机视觉中显示出有希望的性能。但之前的工作多半是在视觉端从图像中提取区域特征，并将它们提供给模型。

VLP Models

Region Features
CNN-based Grid Features
ViT-based Grid Features

研究问题和目的

问题

目标检测器可能不是完美的，在VLP期间保持冻结状态，这限制了VLP模型的容量。再者，提取区域特征过于耗时。
研究人员试图直接从卷积网络提取网格特征。
视觉转换器(ViT）一直是一个越来越热门的研究课题，在纯视觉任务中具有超越卷积网络的潜力。
目前的研究发现，基于区域的VLP在下游任务上显示出优势的性能。
为了探究上述问题，作者提出了多模态端到端名为METER的框架，彻底研究了如何以端到端的方式设计和预训练完全基于transformer的VLP模型。

结论

**视觉转换器(ViT)**比语言转换器起着更重要的作用。
包含交叉注意力有利于多模态融合，这比单独使用自注意力有更好的下游性能。
仅编码器VLP模型在VQA和零样本图文检索任务方面比编码器-解码器模型表现更好。
蒙版图像建模并不是VLP的关键预训练目标。

研究方法

在这里介绍您的研究方法，包括研究设计、样本选择、数据收集和分析方法。

Text Encoder

在 BERT和 RoBERTa之后，VLP 模型首先将输入图像分割成一系列子词，然后在句子的开头和结尾插入两个特殊标记以生成输入文本序列。在我们获得文本嵌入后，现有的工作要么将它们直接馈送到多模态融合模块，要么在融合之前馈送到几个特定于文本的层。对于前者，融合模块通常通过 BERT 初始化，因此文本编码和多模态融合的作用在单个 BERT 模型中纠缠和吸收。在这里，我们的目标是分别剖析这两个角色，并在将特征发送到融合模块之前首先使用文本编码器。
语言模型预训练自BERT诞生以来取得了长足的进步；然而，大多数 VLP 模型仍然只使用 BERT 进行初始化。在这项工作中，我们研究了使用 BERT、RoBERTa 、ELECTRA 、ALBERT 和DeBERTa 进行文本编码。此外，我们还尝试仅使用一个简单的词嵌入查找层，该查找层使用 BERT 嵌入层初始化，如许多先前的作品中所使用的那样。

Multimodal Fusion

我们研究了两种类型的融合模块，即合并注意和共同注意，如图 2 所示。在合并注意模块中，文本和视觉特征简单地连接在一起，然后馈送到一个单个变压器块。另一方面，在共同注意模块中，文本和视觉特征被独立地馈送到不同的转换器块中，并使用交叉注意等技术来实现跨模态交互。对于基于区域的 VLP 模型，如所示，合并注意和共同注意模型可以实现相当的性能，但是，合并注意模块的参数效率更高，因为同一组参数是用于两种模式。由于端到端 VLP 模型变得越来越流行，在这项工作中，我们重新审视了这两种类型的融合模块在我们的新环境中的影响。仅编码器与编码器-解码器。许多 VLP 模型，如VisualBERT采用仅编码器架构，其中跨模态表示直接馈送到输出层以生成最终输出。另一方面，最近，VL-T5和 SimVLM提倡使用变换器编码器-解码器架构，其中跨模态表示首先被输入解码器，然后到输出层。在他们的模型中，解码器同时关注编码器表示和先前生成的标记，自回归地产生输出。图3显示了它们在执行屏蔽语言建模任务时的区别。对于编码器-解码器模型，在执行 VQA 等分类任务时，我们将文本输入提供给其编码器，并将分类标记提供给解码器，然后解码器相应地生成输出类。
在这里插入图片描述

Pre-training Objectives

Masked Language Modeling
屏蔽语言建模 (MLM) 目标首先在纯语言预训练中引入。在 VLP 中，带有图像的MLM 也被证明是有用的。具体来说，给定一个图像-描述对，我们随机屏蔽一些输入标记，并训练模型在给定屏蔽标记 mask 及其对应的视觉输入 v 的情况下重建原始标记。
Image-Text Matching
在图文匹配中，给模型一批匹配或不匹配的图文对，模型需要识别哪些图片和图文是相互对应的。大多数 VLP 模型将图像文本匹配视为二元分类问题。具体来说，一个特殊的标记（例如，[CLS]）被插入到输入句子的开头，它试图学习一个全局的跨模态表示。然后，我们以相等的概率为模型提供匹配或不匹配的图像说明对 v、l，并在 [CLS] 标记之上添加分类器以预测二进制标签 y，指示采样图像是否-标题对匹配。
Masked Image Modeling

研究结果

没有VLP的探索

文本编码器

文本编码器的影响。如表 3 所示，不同文本编码器的模型性能之间没有显着差异。 RoBERTa 似乎在此设置中实现了最强大的性能。另外，从 Emb-only 的结果可以看出，有必要有一个预训练的编码器，否则下游任务的性能会下降。
视觉编码器

视觉编码器的影响。如表 4 所示，CLIP-ViT-224/16 和Swin Transformer 在此设置下都可以达到不错的性能。值得注意的是，在没有任何 VLP 的情况下，SwinTransformer 在测试开发集上的 VQA 分数可以达到72.38，这在预训练后已经可以与一些 VLP 模型相媲美。

有VLP的探索

在这里插入图片描述
如表 5 所示，在 VLP 之后，BERT 和 RoBERTa 之间的差异似乎缩小了，但在底部有一个预训练的文本编码器仍然很重要（Embed-only vs. RoBERTa）。对于视觉编码器，CLIP-ViT-224/16 和 Swin Transformer 都可以达到相当不错的性能。特别是，CLIP-ViT-224/16 可以分别在 test-dev/test-std 集上达到 77.19/77.20 的 VQA 分数，优于之前最先进的基于区域的 VinVL [55] 模型。请注意，VinVL 在预训练期间使用 VQA 数据集，而我们的模型仅通过使用图像字幕数据就获得了更好的性能，这表明了基于 ViT 的 VLP 模型的潜力。
在这里插入图片描述

有用的技巧。在实验中，我们发现了基于 ViT 的 VLP模型的两个技巧，可以极大地提高性能。首先，对随机初始化的参数使用更大的学习率比使用预训练模型初始化的参数更好，这在其他一些 NLP 任务中也很有用 [27]。如表 6 所示，对模型的所有部分使用相同的学习率会导致性能下降，可能是因为预训练的参数已经包含一定数量的视觉知识和语言，以及积极调整它们可能会导致丢失这些有价值的信息。其次，类似于之前的几项工作 [19,54]，我们发现在网络调整期间增加图像分辨率可以大幅提高模型性能，特别是当图像分辨率与补丁大小的比率较低时.图 5 显示，将图像分辨率从 224 提高到 576 可以将CLIP-ViT-224/32 和 CLIP-ViT-224/16 模型的 VQA分数分别提高约 3 分和 1 分。请注意，为了提高图像分辨率，我们首先需要对视觉转换器的位置嵌入矩阵进行插值。

多模态融合模块分析

在这里插入图片描述
表 7 报告了两个模型的下游性能。在我们的设置中，共同注意模型比合并注意力模型表现更好。请注意，这与基于区域的VLP模型[3]的发现相矛盾，可能是因为(i)基于区域的VLP模型的发现不能直接应用于基于vitv的VLP模型;(ii)大多数基于区域的VLP模型只使用预先训练的视觉编码器，也没有包含预先训练的文本编码器，因此两种模式之间的不一致将不利于像共同注意模型这样的对称架构。

Enoder-Only vs.Encoder-Decoder

然后，我们比较了仅编码器和编码器-解码器架构。对于仅编码器模型，我们使用与第 4.2 节中相同的共同注意模型。对于编码器-解码器模型，我们将编码器和解码器的层数设置为 3，每个解码层都有两个独立的交叉注意块，分别处理视觉和文本表示。根据[5]，我们采用 T5 风格 [35] 语言建模目标，因为它适用于他们的模型。具体来说，我们屏蔽了 15% 的输入文本标记，并用标记标记替换连续的文本范围，并且解码器被训练来重建被屏蔽的标记。对于图像文本匹配，我们为解码器提供一个特殊的类标记，它会生成一个二进制输出。结果。如表 7 所示，在我们的两个判别任务上，仅编码器模型可以优于编码器-解码器模型，这与 [5] 中的结果一致。然而，应该注意的是，编码器-解码器架构更灵活，因为它可以执行诸如图像字幕之类的任务，这对于要应用的仅编码器模型来说可能不是那么简单。

预训练目标的消融

在这里插入图片描述如表 10 所示，掩码语言建模和图像-文本匹配都可以为下游任务带来性能提升。然而，我们的两个蒙版图像建模目标都可能导致 VQAv2 和 Flickr30k检索任务的性能下降。这进一步表明基于区域的 VLP模型中的结论可能不一定适用于基于视觉变换器的模型。我们假设性能下降是由于不同目标之间的冲突，可以借用多任务优化[49,53]中的一些技术来解决冲突，我们将其列为未来的方向之一。另一个可能的原因是图像块可能有噪声，因此重建这些噪声块的监督可能无法提供信息。

结论

在本文中，我们介绍了 METER，并研究了如何以端到端的方式训练全变压器 VLP 模型。具体来说，我们从多个维度剖析了模型设计，包括视觉编码器、文本编码器、多模式融合、仅编码器与编码器-解码器以及预训练目标。几个下游任务的实验表明，我们可以通过仅使用 4M 图像进行预训练来获得最先进模型的竞争性能。在未来，我们预计可以进一步整合更强大的视觉变压器骨干网以提高性能。此外，我们计划对不同类型的视觉特征进行详细比较，并测试是否可以结合不同特征的优势，进一步提高模型性能。

但愿此生，从未邂逅

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
An Empirical Study of Training End-to-End Vision-and-Language Transformers

视觉和语言 (VL) 预训练已被证明在各种 VL 下游任务上非常有效。虽然最近的工作表明，完全基于 Transformer 的 VL 模型比以前的基于区域的方法更有效，但它们在下游任务上的性能通常会显着下降。在本文中，我们提出了 METER（多模态端到端转换器），通过它，我们系统地研究如何以端到端的方式设计和预训练一个完全基于变压器的 VL 模型。（例如 CLIP-ViT、Swin 转换器）、（例如 RoBERTa、DeBERTa）、（例如，合并注意力与共同注意）、（例如，仅编码器与编码器-解码器）和。
复制链接

扫一扫