图文多模态预训练任务整理

这篇博客介绍了多模态预训练任务的重要性,包括Masked Language Modeling(MLM)、Masked Vision Modeling(MVM)、Vision-Language Matching(VLM)和Vision-Language Contrastive Learning(VLC)。文章详细阐述了这些任务的定义和应用,并列举了一系列模型(如VisualBERT、VilBERT、UNITER等)如何利用这些任务进行预训练。同时,还讨论了对比学习在多模态领域的应用,如CLIP和SimVLM。
摘要由CSDN通过智能技术生成

引言

近些年来,随着Transformer在CV与NLP领域的广泛应用,研究者们对“多模态”的研究也越来越重视。所谓多模态,就是利用多种模态如图像、文本、音频等信息,力求在下游任务上得到更好的效果。Transformer之所以能在多模态领域发光发热,得益于它的self-attention结构能够天然适应各种不同类型的数据,当然也包括CV和NLP的输入。鉴于CV和NLP领域大多遵循预训练-微调的范式,多模态预训练也自然纳入了研究者们的视线范围。其中,除了具体网络结构,预训练任务也对预训练的效果起到了至关重要的作用,下面我就介绍几个常见的多模态预训练任务,以及它们在各种模型上的应用。

预训练任务概括

我将预训练任务分成以下三类:

  • 文本单模态:只针对文本模态的任务,最常见的是Masked Language Modeling(MLM);
  • 视觉单模态:只针对视觉模态的任务,与文本模态类似,最常见的是Masked Vision Modeling(MVM);
  • 多模态:针对多模态的任务,最常见的有两个,一个是Vision-Language Matching(V
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值