多模态中的“单流模型”和“双流模型”

Pengsen Ma

已于 2024-05-07 09:36:20 修改

阅读量2.3k

点赞数 4

分类专栏：多模态文章标签：深度学习人工智能

于 2024-05-07 08:58:02 首次发布

本文链接：https://blog.csdn.net/weixin_43135178/article/details/138518830

版权

多模态专栏收录该内容

5 篇文章

订阅专栏

多模态预训练模型按照模型结构可以分为单流和双流两种结构。

单流是指图片和文本在embedding之后就融合在一起进入后续的transformer层。【先将信息fusion，然后再用一个model处理】
双流是指文本和图片单独享有自己的transformer层，只在最后做轻量的融合。【每个模态信息有自己的model，再最后做信息的的fusion】

现有的多模态预训练模型都跳不出这两种结构，更多的多模态预训练模型在预训练任务上下功夫、引入更多的预训练任务，设计统一的架构去训练所有的任务等等。除此之外，图片的embedding也有会不同的方式。

一、单流模型示例：

主要通过将不同模型的embedding信息通过加和（+）、拼接（cat）的方式将不同模态的信息拼在一起，然后输入到一个model中进行处理。

1、VisualBERT

论文标题：VisualBERT: A Simple and Performant Baseline for Vision and Language

论文链接：https://arxiv.org/abs/1908.03557

源码链接：https://github.com/uclanlp/visualbert

2、Unicoder-VL

论文标题：Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

论文链接：https://arxiv.org/abs/1908.06066

3、VL-BERT

论文标题：VL-BERT: Pre-training of Generic Visual-Linguistic Representations

论文链接：https://arxiv.org/abs/1908.08530

源码链接：https://github.com/jackroos/VL-BERT

二、双流模型示例：

主要通过共注意力（co-attention）来将经过不同model的模态信息进行融合。或者交叉注意力（cross-attention）

1、ViLBERT

论文标题：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

论文链接：https://arxiv.org/abs/1908.02265

源码链接：https://github.com/facebookresearch/vilbert-multi-task

基于双流的 ViLBERT，在一开始并未直接对语言信息和图片信息进行融合，而是先各自经过 Transformer 的编码器进行编码。分流设计是基于这样一个假设，语言的理解本身比图像复杂，而且图像的输入本身就是经过 Faster-RCNN 提取的较高层次的特征，因此两者所需要的编码深度应该是不一样的。

当两种模态各自进行编码后，其输出会经过一个共注意力机制模块（图右侧所示）。该模块也是基于 Transformer 的结构，只是在自注意力机制中每个模块都用自己的 Query 去和另一模块的 Value 和 Key 计算注意力，由此来融合不同模块间的信息。