引言
近些年来,随着Transformer在CV与NLP领域的广泛应用,研究者们对“多模态”的研究也越来越重视。所谓多模态,就是利用多种模态如图像、文本、音频等信息,力求在下游任务上得到更好的效果。Transformer之所以能在多模态领域发光发热,得益于它的self-attention结构能够天然适应各种不同类型的数据,当然也包括CV和NLP的输入。鉴于CV和NLP领域大多遵循预训练-微调的范式,多模态预训练也自然纳入了研究者们的视线范围。其中,除了具体网络结构,预训练任务也对预训练的效果起到了至关重要的作用,下面我就介绍几个常见的多模态预训练任务,以及它们在各种模型上的应用。
预训练任务概括
我将预训练任务分成以下三类:
- 文本单模态:只针对文本模态的任务,最常见的是Masked Language Modeling(MLM);
- 视觉单模态:只针对视觉模态的任务,与文本模态类似,最常见的是Masked Vision Modeling(MVM);
- 多模态:针对多模态的任务,最常见的有两个,一个是Vision-Language Matching(V