2021: E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

最新推荐文章于 2023-11-24 13:54:09 发布

weixin_42653320

最新推荐文章于 2023-11-24 13:54:09 发布

阅读量1.4k

点赞数

分类专栏：视觉问答参考文章文章标签： transformer 深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/122981097

版权

摘要

大多现有的预训练方法主要采用两阶段训练过程，首先利用一个预训练好的目标检测器来提取基于区域的视觉特征，然后连接图像表示和文本嵌入作为Transformer的输入用于训练。然而，这些方法面临使用特定对象检测器的特定任务的视觉表示来实现通用的跨模态理解，以及两阶段管道的计算效率低下的问题。

本文，我们提出第一个端到端的视觉-语言预训练好的用于V+L理解和生成的模型，命名为E2E-VLP，我们建立了一个统一的Transformer框架来共同学习视觉表示，以及图像和文本之间的语义对齐。我们将目标检测器和图像标注的任务合并到一个统一的Transformer编码-解码器架构的预训练，以增强视觉学习。一组广泛的实验已经在成熟的视觉-语言下游任务上进行，以证明这种新的VLP范式的有效性。

一、介绍

两阶段的VLP方法存在以下弱点：1）第一步的目标检测模型在特定的视觉数据集上进行训练，如VG数据集，在第二阶段视觉表示没有优化为更通用的跨模态理解，当目标检测模型不能识别某些重要信息时，可能会出现错误传播问题。2）使用目标检测模型提取区域特征非常耗时，因此大多先进模型都是直接在缓存的视觉特征上进行训练和评估，这种做法不仅对模型设计施加了不必要的约束，还面临了预测阶段运行时推理的低效率。

最近一些研究开始重新审视网格特征以进行跨模态理解，并发现网格特征也可以惊人地工作很好，同时使模型设计和训练过程更加简单。一项以前工作Pixel-BERT探索了直接从像素以端到端的方式对网格特征进行预训练，它移除了所有细粒度的视觉预训练任务，这证明对V+L预训练很重要。也有zhang等证明目标检测模型提供的视觉特征在VLP模型中具有重要意义。

为解决这些限制，我们提出一种新的端到端的像素级的视觉-语言预训练范式，即E2E-VLP，通过增强细粒度的视觉学习。预训练期间，E2E-VLP直接从图像像素中，在一个统一的Transformer编码-解码器结构中，共同学习视觉区域特征和跨模态表示。除了典型的掩码语言建模和图像-文本匹配的预训练任务外，我们还利用细粒度的视觉语义学习增强了视觉-语言预训练。具体地，两个端到端任务被进一步纳入：1）目标检测：受DETR的启发，我们将目标检测视为一个直接集预测问题，跨模态Transformer编码器和图像编码器共同学习来融合像素的跨模态数据，而解码器被用来通过预测的和真实对象间的二值匹配来捕获细粒度的视觉信息；2）图像-文本生成：为更好理解图像中的语义，我们还使用成对的文本来指导图像特征的学习。我们使用编码器网络来表示图像，并使用一个从左到右的解码器来生成标注文本，使用标准的自回归语言模型目标，使数据概率最大化。这两个任务可以帮助学习高质量的视觉表示，检测任务可以学习对象级的视觉语义，而图像标注任务可以捕获文本对齐的视觉语义。这两种视觉语义在VLP跨模态融合中具有重要作用。微调期间，E2E-VLP可灵活地应用于编码器模块的视觉-语言理解任务，以及编码-解码器模块的视觉-语言生成任务。

在不同的V+L任务中，我们可以获得惊人的良好性能，并通过但阶段解决方法大大减少了在线推理的时间。

我们在本文中做了以下贡献：1）我们提出第一个端到端的视觉-语言预训练好的模型用于V+L理解和生成，即E2E-VLP，可以用更快的在线推理速度来实现类似的或更优越的性能；2）E2E-VLP是第一个将细粒度的视觉预训练集成到编码-解码器结构中的模型，这为设计高级视觉和语言预训练任务铺平了道路；3）我们通过目标检测和图像标注的视觉学习来增强跨模态融合，实验上证明了这对视觉-语言的预训练是有效的。

二、相关工作

目前的VLP模型主要采用两步训练管道，包括用对象检测器提取语义视觉特征，并训练跨模态的预训练模型，以对齐文本和视觉特征。在这种方法中，主要有两大方向进行视觉-语言的预训练，第一种使用单流的transformer结构在一个统一

最低0.47元/天解锁文章

weixin_42653320

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021: E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

摘要大多现有的预训练方法主要采用两阶段训练过程，首先利用一个预训练好的目标检测器来提取基于区域的视觉特征，然后连接图像表示和文本嵌入作为Transformer的输入用于训练。然而，这些方法面临使用特定对象检测器的特定任务的视觉表示来实现通用的跨模态理解，以及两阶段管道的计算效率低下的问题。本文，我们提出第一个端到端的视觉-语言预训练好的用于V+L理解和生成的模型，命名为E2E-VLP，我们建立了一个统一的Transformer框架来共同学习视觉表示，以及图像和文本之间...
复制链接

扫一扫