2022VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

最新推荐文章于 2023-11-10 17:45:01 发布

VIP文章 weixin_42653320

最新推荐文章于 2023-11-10 17:45:01 发布

阅读量1.5k

点赞数 1

分类专栏：视觉问答文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42653320/article/details/126315455

版权

摘要

我们提出了一个统一的视觉-语言预训练模型(VLMo)，该模型与一个模块化的transformer网络共同学习一个双编码器和一个融合编码器。具体地，我们引入了模态混合专家(MoME)Transformer，其中每个块包含一个特定于模态的专家的池化和一个共享的自注意力层。由于MoME的建模灵活性，预训练好的VLMo可以作为视觉语言分类任务的融合编码器进行微调，或者用作有效的图像-文本检索的双编码器。此外，我们提出了一种阶段预训练策略，该策略有效地利用了除图像-文本对之外的大规模的仅图像和仅文本数据。实验结果表明，VLMo在各种视觉-语言任务上取得了最先进的结果，包括VQA、NLVR2和图像文本检索。

一、介绍

视觉-语言(VL)预训练从大规模的图像-文本对中学习通用的跨模态表示。以往的模型通常采用图像-文本匹配、图像-文本对比学习、掩码区域分类/特征回归、单词-区域/补丁对齐和掩码语言建模等方法来对视觉和语言信息进行聚合和对齐，然后，预训练好的模型可以直接对下游的视觉-语言任务进行微调，如VL检索和分类(视觉问答、视觉推理等)。

两种主流体系结构在以前的工作中被广泛使用。CLIP和ALIGN采用双编码器架构，分别编码图像和文本，模态交互作用是由图像和文本特征向量的余弦相似度来处理的。双编码器架构对检索任务是有效的，特别是对大量的图像和文本，图像和文本的特征向量可以预先计算和存储。然而，图像和文本之间的浅层交互并不足以处理复杂的VL分类任务。ViLT发现CLIP在视觉推理任务上的准确性相对较低。另一行工作依赖于对建模图像-文本对具有跨模态注意力的融合编码器。融合编码器架构在VL分类任务上取得了优越的性能，但它需要联合编码所有可能的图像-文本对。二次时间复杂度导致的推理速度比时间复杂度为线性的双编码器模型要慢得多。

为了利用这两种类型的架构，我们提出一个统一的视觉-语言预训练模型(VLMo)，可以作为一个双编码器分别编码图像和文本检索任务，或作为融合编码器建模图像-文本对的深度交互用于分类任务。这是通过引入模态混合专家(MoME)Transformer，这可以编码一个Transformer块内的各种模态(图像、文本、和图像-文本对)。MoME采用了多模态专家的池化来取代标准Transformer中的前馈网络，它通过切换到不同的模态专家来捕捉特定于模态的信息，并使用跨模态的共享自注意力来对齐视觉和语言信息。具体地，MoME Transformer包含三个模态专家，分别是用于图像编码的视觉专家、用于文本编码的语言专家、和用于图像-文本融合的视觉-语言专家。由于建模的灵活性，我们可以为不同的目的使用共享参数重用MoME Transformer，即仅文本编码器、仅图像编码器、和图像-文本融合编码器。

VLMo与三个预训练任务共同学习，即图像-文本对比学习、图像-文本匹配、和掩码语言建模。此外，我们

最低0.47元/天解锁文章

weixin_42653320

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
2022VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

视觉-语言(VL)预训练从大规模的图像-文本对中学习通用的跨模态表示。以往的模型通常采用图像-文本匹配、图像-文本对比学习、掩码区域分类/特征回归、单词-区域/补丁对齐和掩码语言建模等方法来对视觉和语言信息进行聚合和对齐，然后，预训练好的模型可以直接对下游的视觉-语言任务进行微调，如VL检索和分类(视觉问答、视觉推理等)。两种主流体系结构在以前的工作中被广泛使用。CLIP和ALIGN采用双编码器架构，分别编码图像和文本，模态交互作用是由图像和文本特征向量的余弦相似度来处理的。...
复制链接

扫一扫