#今日论文推荐# IJCAI 2022 | 图-文预训练综述

#今日论文推荐# IJCAI 2022 | 图-文预训练综述

我们生活在一个包含多种模态信息的世界里(声音,视觉,气味等等),其中视觉与语言是最重要的模态之一。视觉-语言任务一直是人工智能领域的聚焦点之一。深度学习的快速发展使得大量的神经网络模型被运用在视觉-语言任务上,如循环神经网络(RNN),卷积神经网络(CNN)或自注意力网络(Transformer)。尽管这些模型取得了相当大的成功,但他们大多数只关注于特定任务,不具备良好的任务迁移性,为相关研究的发展造成了阻碍。
随着预训练方法在CV与NLP领域的成功,预训练-微调的范式也被运用在了视觉-语言任务上。通过在大规模标注好的图-文对上进行预训练,视觉-语言预训练模型(Vision-Language pretrained models, VL-PTMs)可以学到通用的视觉-语言信息。VL-PTMs在大量的视觉-语言任务上显著的超过了传统模型,也使得预训练方法逐步成为了视觉-语言领域的主流范式。
总的来讲,对VL-PTM的预训练可以分为三个步骤:(1)将图像与文本信息编码成隐向量表示  (2)设计一个合适的架构来建模视觉信息与语言信息之间的交互 ) (3)设计若干个有效的预训练任务来进行后续的预训练。在学习到通用的视觉-语言语义信息后,模型可以在下游任务上微调来适配下游任务。我们在图1中给出了对当下主流视觉-语言预训练模型的总结,我们的综述也将从这些点来对视觉-语言预训练模型进行详细的介绍。

论文题目:A Survey of Vision-Language Pre-Trained Models
详细解读:https://www.aminer.cn/research_report/62b169bc7cb68b460fd7d008?download=falseicon-default.png?t=M5H6https://www.aminer.cn/research_report/62b169bc7cb68b460fd7d008?download=false
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值