#今日论文推荐# IJCAI 2022 | 图-文预训练综述

最新推荐文章于 2024-10-08 19:06:52 发布

wwwsxn

最新推荐文章于 2024-10-08 19:06:52 发布

阅读量157

点赞数

分类专栏：深度学习文章标签：深度学习机器学习人工智能

原文链接：https://www.aminer.cn/research_report/62b169bc7cb68b460fd7d008?download=false

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# IJCAI 2022 | 图-文预训练综述

我们生活在一个包含多种模态信息的世界里（声音，视觉，气味等等），其中视觉与语言是最重要的模态之一。视觉-语言任务一直是人工智能领域的聚焦点之一。深度学习的快速发展使得大量的神经网络模型被运用在视觉-语言任务上，如循环神经网络（RNN），卷积神经网络（CNN）或自注意力网络（Transformer）。尽管这些模型取得了相当大的成功，但他们大多数只关注于特定任务，不具备良好的任务迁移性，为相关研究的发展造成了阻碍。
随着预训练方法在CV与NLP领域的成功，预训练-微调的范式也被运用在了视觉-语言任务上。通过在大规模标注好的图-文对上进行预训练，视觉-语言预训练模型（Vision-Language pretrained models, VL-PTMs）可以学到通用的视觉-语言信息。VL-PTMs在大量的视觉-语言任务上显著的超过了传统模型，也使得预训练方法逐步成为了视觉-语言领域的主流范式。
总的来讲，对VL-PTM的预训练可以分为三个步骤：（1）将图像与文本信息编码成隐向量表示（2）设计一个合适的架构来建模视觉信息与语言信息之间的交互）（3）设计若干个有效的预训练任务来进行后续的预训练。在学习到通用的视觉-语言语义信息后，模型可以在下游任务上微调来适配下游任务。我们在图1中给出了对当下主流视觉-语言预训练模型的总结，我们的综述也将从这些点来对视觉-语言预训练模型进行详细的介绍。

论文题目：A Survey of Vision-Language Pre-Trained Models
详细解读：https://www.aminer.cn/research_report/62b169bc7cb68b460fd7d008?download=falsehttps://www.aminer.cn/research_report/62b169bc7cb68b460fd7d008?download=false
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。