2022VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

摘要

        我们提出了一个统一的视觉-语言预训练模型(VLMo),该模型与一个模块化的transformer网络共同学习一个双编码器和一个融合编码器。具体地,我们引入了模态混合专家(MoME)Transformer,其中每个块包含一个特定于模态的专家的池化和一个共享的自注意力层。由于MoME的建模灵活性,预训练好的VLMo可以作为视觉语言分类任务的融合编码器进行微调或者用作有效的图像-文本检索的双编码器。此外,我们提出了一种阶段预训练策略该策略有效地利用了除图像-文本对之外的大规模的仅图像和仅文本数据。实验结果表明,VLMo在各种视觉-语言任务上取得了最先进的结果,包括VQA、NLVR2和图像文本检索。

一、介绍

        视觉-语言(VL)预训练从大规模的图像-文本对中学习通用的跨模态表示。以往的模型通常采用图像-文本匹配、图像-文本对比学习、掩码区域分类/特征回归、单词-区域/补丁对齐和掩码语言建模等方法来对视觉和语言信息进行聚合和对齐,然后,预训练好的模型可以直接对下游的视觉-语言任务进行微调,如VL检索和分类(视觉问答、视觉推理等)。

        两种主流体系结构在以前的工作中被广泛使用。CLIP和ALIGN采用双编码器架构,分别编码图像和文本,模态交互作用是由图像和文本特征向量的余弦相似度来处理的。双编码器架构对检索任务是有效的,特别是对大量的图像和文本,图像和文本的特征向量可以预先计算和存储。然而,图像和文本之间的浅层交互并不足以处理复杂的VL分类任务。ViLT发现CLIP在视觉推理任务上的准确性相对较低。另一行工作依赖于对建模图像-文本对具有跨模态注意力的融合编码器。融合编码器架构在VL分类任务上取得了优越的性能,但它需要联合编码所有可能的图像-文本对。二次时间复杂度导致的推理速度比时间复杂度为线性的双编码器模型要慢得多。

        为了利用这两种类型的架构,我们提出一个统一的视觉-语言预训练模型(VLMo),可以作为一个双编码器分别编码图像和文本检索任务,或作为融合编码器建模图像-文本对的深度交互用于分类任务。这是通过引入模态混合专家(MoME)Transformer,这可以编码一个Transformer块内的各种模态(图像、文本、和图像-文本对)。MoME采用了多模态专家的池化来取代标准Transformer中的前馈网络,它通过切换到不同的模态专家来捕捉特定于模态的信息,并使用跨模态的共享自注意力来对齐视觉和语言信息。具体地,MoME Transformer包含三个模态专家,分别是用于图像编码的视觉专家、用于文本编码的语言专家、和用于图像-文本融合的视觉-语言专家。由于建模的灵活性,我们可以为不同的目的使用共享参数重用MoME Transformer,即仅文本编码器、仅图像编码器、和图像-文本融合编码器。

        VLMo与三个预训练任务共同学习,即图像-文本对比学习、图像-文本匹配、和掩码语言建模。此外,我们

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SOHO和VLBERT是两个不同的模型。SOHO是一个用于图像理解和生成的模型,而VLBERT是一个用于图像和文本联合理解的模型。 SOHO是一个基于自监督学习的模型,它通过对图像进行遮挡和恢复的任务来学习图像的表示。它可以用于图像生成、图像修复和图像编辑等任务。 VLBERT是一个将图像和文本结合起来进行联合理解的模型。它使用ViT的方法来提取图像特征,并将每个图像patch映射到隐状态维度。VLBERT的结构和ViT相似,但在LN层的位置上有所不同。VLBERT可以用于图像问答、图像标注和图像检索等任务。 总结来说,SOHO是一个用于图像生成和理解的模型,而VLBERT是一个用于图像和文本联合理解的模型。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [多模态中预训练的演变史](https://blog.csdn.net/qq_27590277/article/details/121690048)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [从LXMERT到VLMO:多模态预训练模型的演变史](https://blog.csdn.net/qq_27590277/article/details/121391773)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值