#今日论文推荐# IJCAI 2022 | 图-文预训练综述
我们生活在一个包含多种模态信息的世界里(声音,视觉,气味等等),其中视觉与语言是最重要的模态之一。视觉-语言任务一直是人工智能领域的聚焦点之一。深度学习的快速发展使得大量的神经网络模型被运用在视觉-语言任务上,如循环神经网络(RNN),卷积神经网络(CNN)或自注意力网络(Transformer)。尽管这些模型取得了相当大的成功,但他们大多数只关注于特定任务,不具备良好的任务迁移性,为相关研究的发展造成了阻碍。
随着预训练方法在CV与NLP领域的成功,预训练-微调的范式也被运用在了视觉-语言任务上。通过在大规模标注好的图-文对上进行预训练,视觉-语言预训练模型(Vision-Language pretrained models, VL-PTMs)可以学到通用的视觉-语言信息。VL-PTMs在大量的视觉-语言任务上显著的超过了传统模型,也使得预训练方法逐步成为了视觉-语言领域的主流范式。
总的来讲,对VL-PTM的预训练可以分为三个步骤:(1)将图像与文本信息编码成隐向量表示 (2)设计一个合适的架构来建模视觉信息与语言信息之间的交互 ) (3)设计若干个有效的预训练任务来进行后续的预训练。在学习到通用的视觉-语言语义信息后,模型可以在下游任务上微调来适配下游任务。我们在图1中给出了对当下主流视觉-语言预训练模型的总结,我们的综述也将从这些点来对视觉-语言预训练模型进行详细的介绍。
论文题目:A Survey of Vision-Language Pre-Trained Models
详细解读:https://www.aminer.cn/research_report/62b169bc7cb68b460fd7d008?download=falsehttps://www.aminer.cn/research_report/62b169bc7cb68b460fd7d008?download=false
AMiner链接:https://www.aminer.cn/?f=cs