多模态信息抽取（二）——多模态预训练模型综述（上）

最新推荐文章于 2024-07-01 21:53:49 发布

椒椒。

最新推荐文章于 2024-07-01 21:53:49 发布

阅读量1.5k

点赞数 1

分类专栏：深度学习图像处理自然语言处理文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/qq_38978225/article/details/126784119

版权

自然语言处理同时被 3 个专栏收录

55 篇文章 6 订阅

订阅专栏

深度学习

52 篇文章 6 订阅

订阅专栏

图像处理

12 篇文章 0 订阅

订阅专栏

多模态预训练模型综述-论文研读

0引言
1相关工作
2多模态预训练任务
2.3ITM预训练任务
2.4多模态数据融合

摘要：近年来，预训练模型(PTM)的出现，将人工智能带入了一个新时代。通过利用复杂的预训练目标和大量的模型参数，预训练模型可以有效地获得无标记数据中的丰富知识。在多模态中，预训练模型的发展还处于初期。依据具体模态的不同将目前大多数的多模态预训练模型分为图像-文本预训练模型和视频-文本预训练模型，依据数据融合方式的不同还可将多模态预训练模型分为单流模型和双流模型两类。首先总结了常见的预训练任务和验证实验所使用的下游任务；接着，梳理了目前多模态预训练领域的常见模型，并用表格列出各个模型的下游任务以及对模型的性能和实验数据进行比较；然后，介绍了M6模型、跨模态提示调优(CPT)模型、VideoBERT模型和Alicemind模型在具体下游任务中的应用场景；最后，对多模态预训练模型相关工作面临的挑战以及未来可能的研究方向进行了总结。

0引言

随着自监督的不断发展，预训练技术在学习视觉和语言表征信息方面发挥着重要的作用。预训练的作用是从大量的训练数据中提取出尽可能多的共性特征，使模型对特定任务的学习负担变轻。在大规模的未标记数据上对模型进行预训练，并使用特定于任务的标记数据对下游任务进行微调[1]。随着深度学习的发展，模型的参数越来越多。要完全训练模型参数、防止产生过拟合现象，就需要使用更大的数据集。针对这些问题，预训练模型慢慢出现。预训练简单来说就是指预先训练的一个模型或者指预先训练模型的过程。把一个已经训练好的图像分类[2]的模型的参数，应用到另一个类似任务上作为初始参数，类似这样训练模型的过程称作预训练。
多模态数据是指对于同一个描述对象，通过不同领域或视角获取到的数据，并且把描述这些数据的每一个领域或视角叫作一个模态[3]。多模态进行预训练期望学习到两种及多种模态间的关联关系，较单一模态进行预训练，可综合获取多种信息，使得预训练模型具有更好的泛化性。虽然视觉或语言等单一模态的理解在视觉或语言任务中不可或缺，但各个模态之间的相互关系也同样重要。若多模态模型无法将相关的视觉信息和语言单词进行联合表征，则经过预训练的单一模态的特征在许多任务中无法实现“微调即可用”。因此，在大规模无标注的多模态数据上学习到有利于下游任务关联、理解和推理的特征是非常重要的研究任务[4]。
多模态预训练模型虽然有所发展，但仍然面临着很多挑战:1)多模态数据的数据量规模远比自然语言语料库小很多。2)计算机视觉中预训练大多仅用于特征提取，将计算机视觉模型和自然语言处理模型共同训练的情况较少。目前没有好的联合训练算法，而且训练代价非常大。3)计算机视觉中的对象识别，目前的类别仅有1000类，对真实场景覆盖率低且识别精度不高，使得预训练的输入本身存在误差。4)多模态预训练模型目前大多采用Transformer机制，代价较大。这样是否最合适对图像文字、视频-文字建立关联并不确定。5)图片和视频的预训练模型不一样。视频播放是有时序的，所以对于视频的分割需要按照固定的时长进行，并且视频预训练的代价比图片和文字的预训练大很多。最近，人们开始对多模态任务进行自我监督学习，方法是对大型图像/视频和文本对进行预训练，然后对下游任务进行微调。例如，VideoBERT[5]应用BERT(BidirectionalEncoderRepresentationfromTransformers)从视频文本对中学习视频帧特征和语言标记的联合分布。ViLBERT(VisionandLanguageBERT)[4]LXMERT(LearningCross-ModalityEncoderRepresentationsfromTransformers)[6]引入了双流体系结构。在另一方面，B2T2(BoundingBoxesinTextTransformer)、VisualBERT[7]、Unicoder-VL(UniversalencoderforVisionandLanguagebycross-modalpre-training)[8]和VL-BERT(Visual-LinguisticBERT)[9]使用了单流体系结构，将单个Transformer应用于图像和文本。视觉-语言预训练（Vision-LanguagePre-Training,VLP）将预训练的模型应用于图像字幕和视觉问答(VisualQuestionAnswering,VQA)。并引入多任务学习和对抗训练用于进一步提高性能。
就以上问题撰写多模态预训练模型综述，对以上挑战以及相应解决方案进行总结阐述，以便为后续多模态预训练模型的研究者做简单参考。

1相关工作

大规模预训练模型增强了对多模态数据的研究兴趣，例如图像-文本预训练或视频-文本预训练。考虑到图像和视频属于视觉，而文本和语音属于语言，因此将大多数多模态预训练模型归类为视觉-语言(Vision-Linguistic,V&L)预训练模型。V&L任务根据具体模态不同可细分为图像-文本任务、视频-文本任务和视频-音频任务。以下对V&L多模态预训练的最近工作进行总结概述。
对于图像-文本预训练模型(Pre-TrainingModel,PTM)，当前的大多数工作都是基于视觉-语言BERT的架构。主要挑战在于统一语义空间中视觉和文本内容的对齐。因此发展出两种模型架构设计：双流和单流。
在双流模型方面，2019年由Lu等提出ViLBERT模型[4]，首次将BERT结构扩展到多模态双流模型中，使用类似BERT的架构学习对图像-文本的联合表示，但由于视觉和语言都有单独的Transformer结构，导致参数量显著提高。同ViLBERT相似，LXMERT模型[6]也是将两个Transformer应用于图像和文本，并通过第三个Transformer进行融合。2021年，Radford等提出的CLIP(ContrastiveLanguage-ImagePre-Training)模型[10]，用4亿个来自网络的图文数据对，将文本作为图像标签进行训练，使用两个编码器分别处理文本和图片，在图像-文本检索任务上取得了显著的性能，但在其他视觉-语言任务中表现不佳。针对以上问题，之后由Li等提出的ALBEF(ALignBEforeFuse)模型[11]，引入中间的图像-文本对比损失，首先将单模态图像表示与文本表示进行对齐，再与多模态编码器进行融合，引导视觉和语言表示学习，在多个下游任务中获得了更快的推理速度。
在单流模型中，Sun等在2019年提出VideoBERT[5]，作为单流模型，它在结构上使用堆叠的Transformer结构，使用聚类技术对视频帧和音频语言进行处理。VisualBERT[7]，与VideoBERT相比拥有更简单的架构，可以在无监督条件下建立语音、图像之间的联系，但还未将该模型应用于纯图像任务中。随即，2020年由Li等提出的Unicoder-VL[8]作为图像-文本领域的预训练模型，继续采用堆叠的Transformer结构，相较于以上三个模型，使用大量的图像-文本对进行训练，可学习常见的跨模态知识并应用于更广泛的下游任务中，但无法从单个的图像模态中提取信息。
“紫东太初”[12]作为全球首个图文音三模态模型，通过在三个基本模态中加入多模态编码器网络，同时具备跨模态理解与跨模态生成能力，在预训练模型领域取得了突破性进展。“紫东太初”在图文跨模态理解与生成上，都能领先目前业界的SOTA(State-Of-The-Art)模型，高效完成跨模态检测、视觉问答、语义描述等下游任务。
在多模态预训练中，数据资源也尤为重要。最广泛使用的语料库是从网络收集的图像-文本对，包括概念字幕[13]、SBU(StonyBrookUniversity)Captions[14]或为特定任务设计的V&L数据集，包括COCO(CommonObjectsinContext)[15]、Flickr30K[16]、GQA[17]、VQA[18]和VisualGenome[19]。UNITER(UNiversalImage-TExtRepresentation)[20]结合了上述几个数据集，产生了560万个用于训练的图像-文本对。与UNITER在架构和预训练任务上类似，ImageBERT[21]进一步构建一个包含1000万网页图像-文本对的数据集，并将其用作预训练数据集，从而在图像-文本检索任务上获得比UNITER更好的性能。除了并行的图像-文本数据，VLBERT[9]发现，合并额外的纯文本语料库(如BookCorpus[22])和维基百科(Wikipedia)有助于文本理解，特别是像视觉常识推理这样的长而复杂的句子任务。与只使用容易得到的数据(如图像文本对或文本语料库)的工作不同，Lu等[23]通过对几乎所有的V&L任务进行联合多任务训练来验证专用数据集。
多模态以其表示信息的多样性，受到研究者的青眯。最近，多模态预训练模型也相继问世，引领了模型训练的新方向。目前多模态预训练模型还处于初期阶段，遵循大多数自然语言处理(NaturalLanguageProcessing,NLP)预训练模型，从有限的图像-语言数据集、视频-语言数据集中学习联合表示，计算图像或视频片段和文字描述的距离，并实现图像文字、视频-文字之间的转换。虽然还不成熟，但已经展现出一定的前景。

2多模态预训练任务

多模态预训练任务较多，这里主要在UNITER模型[20]的基础上详细介绍4个常见的多模态预训练任务。

2.1MLM预训练任务

掩码语言建模预训练任务(Masked Language
Modeling,MLM)[24]是指在句子表示中随机掩盖一些字词，然后模型基于其他的文本标记和所有的图像标记来预测这些被掩盖的标记的一种任务。UNITER模型的输入是图片、文本对，随机的删除一些位置的词语，目标是在这些删除位置让 UNITER 去还原原本的词语，MLM
任务图如图1所示。用到的损失函数是负对数似然函数(negative log-likelihood)。

2.2MRM预训练任务

2.2.1MRC预训练任务

掩码区域分类预训练任务(MaskedRegionClassification,MRC)[25],需要在区域标记中随机掩盖一些字词,然后根据其他的图片标记和所有的文本词语来预测这些被掩盖的字词｡具体来说,经过FasterR-CNN(FasterRegion-basedConvolutionalNeuralNetwork)算法[26]每个区域会得到一个标记,模型需要预测被掩盖字词的类别,使之和FasterRCNN的标记相同｡
掩码区域建模(MaskedRegionModeling,MRM)[27],类似于MLM,同样可以采样图像区域,并以15%的概率掩盖它们的视觉特征｡在给定剩余区域和所有单词的情况下,训练该模型重建掩码区域｡被掩盖区域的视觉特征被零代替｡但是与用离散标签表示的文本标记不同,视觉特征是高维连续的｡MRM任务图如图2所示｡

在这里插入图片描述

2.2.2MRC-KL预训练任务

掩码区域分类KL散度(Kullback-Leiblerdivergence)预训练任务(MaskedRegionClassificationwithKL-Divergence,MRC-KL)[28]，同样是随机掩盖区域标记，但是不同的是，这里不是做分类任务，而是需要计算FasterR-CNN特征和掩盖区域的分布差异，使得掩盖区域的分布和FasterR-CNN特征的分布尽可能相似，所以损失函数用的是KL散度。
掩码区域分类MRC的任务是预测一个被掩盖的视觉区域的对象类别，激活未掩盖的视觉上下文和标记。MRC-KL变量[7]测量预测分布的KL散度，而不是针对单个对象类的交叉熵。
MRM的最小化负似然函数为式(4)。
最小化两个分布之间的KL差距如式(6):

2.2.3MRFR预训练任务

MRC可以被视为视觉MLM，需要V&L模型来预测蒙面对象的类别。掩码区域特征回归(MaskedRegionFeatureRegression,MRFR)[20]进一步要求V&L模型恢复掩盖对象区域的视觉特征。MRFR预测被掩盖掉的RoI(RegionofInterest)特征。随机掩盖掉15%的RoI(全部替换为零向量)，损失为输出RoI特征与特征抽取模型的RoI特征间的L2距离。
MRFR类似于MLM任务，是一个流行的图像预训练任务。在短语上，MRFR掩盖对象特征，模型根据文本侧类别标签和对象周围的信息预测原始对象级特征。在句子中，MRFR掩盖了图像的对象特征，模型基于文本侧句子层面的整体信息和周围对象信息预测原始对象。

2.3ITM预训练任务

在图像-文本配对任务(Image-TextMatching,ITM)[29]中，需要对输入的图像-文本配对，随机替换其中的图片或者文本，最后预测输入的图像和文本是否有对应关系，属于一个二分类的问题。具体任务图如图3所示。

2.4多模态数据融合

多模态数据融合是多模态预训练模型的重要的一部分，针对融合时期、融合程度和融合方式的不同，可将多模态数据融合分为早期融合、晚期融合和混合融合三种[30]。
为了解决各个模态之间的原始数据的不一致性，可以从每个模态中分别提取各自的特征表现形式，接着在特征级别上进行融合，称之为特征融合[31]。在深度学习中有时涉及从原始数据中学习特征的表示形式，导致有时在特征提取之前就进行数据融合，因此数据层和特征层的融合均称为早期融合。早期融合图如图4(a)所示。在特征融合中，首先提取单一模态的特征，然后合并提取到的模态到融合特征中，再将该特征输入到指定模型中，输出预测结果。在该融合方法中，各模态特征经过转换、缩放等操作后得到的融合特征具有很高的维度，可使用线性判别分析(LinearDiscriminantAnalysis,LDA)[32]对融合特征进行降维处理。常常用早期融合结合语音识别中的音频和视频特征[33]。由于各种模态本身的差异，只进行简单的属性相接可能会忽略模态之间相关性和独有的特点，并可能产生数据之间的冗余和数据依赖[34]。并且在融合动作进行之前，要保证特征以相同的格式进行输入。
晚期融合方法也称决策级融合方法，先用对应的模型对各个模态进行建模训练，再融合多个模型输出的结果。这种方法主要采用最大值结合、平均值结合、贝叶斯规则等结合规则来确定不同模型输出结果的结合策略，较早期融合方法解决了一定的数据异步性。这样融合的好处是融合模型的错误来自不同的分类器，不会造成错误的累加效应。针对不同的模态可以选择各自最适合的分析方法，如音频使用隐马尔可夫模型[35]图像使用可支持向量机(SupportVectorMachine,SVM)[36]，但这加大了融合的难度。晚期融合如图4(b)所示。
研究表明，每个融合方式并无确定的优劣之分，在不同的实验条件下，可以尝试不同的融合方式来达到预期的效果。三种融合方式的具体参数比较如表1所示。
多模态融合方法挺多的，这里只是说了三种，还有一种中期的融合方法，可以借鉴别的论文看看。