多模态预训练CLIP模型的强大为例

本文深入探讨CLIP模型,展示了其在零样本(zero-shot)和少量样本(few-shot)学习中解决VQA和图文蕴含问题的能力。通过对比学习和prompt技术,CLIP能有效进行图像分类和多模态任务。实验结果显示,CLIP在VQA任务上的表现显著优于其他方法,验证了其强大的跨模态理解能力。
摘要由CSDN通过智能技术生成

微信公众号“圆圆的算法笔记”,持续更新NLP、CV、搜推广干货笔记和业内前沿工作解读~ 后台回复“交流”加入“圆圆的算法笔记”交流群;回复“时间序列“、”多模态“、”迁移学习“、”NLP“等获取各个领域干货算法笔记~

最近在看ACL 2022论文的时候,发现了一篇很有意思的文章:CLIP Models are Few-shot Learners。这个文章标题马上让人联想起GPT3那篇文章Language Models are Few-Shot Learners。CLIP自2021年被提出以来一直是多模态领域研究的热点,结合对比学习和prompt这两种方法,利用文本信息进行图像的无监督训练,实现zero-shot的图像分类,也可以被应用到图片文本匹配等多模态任务中。CLIP Models are Few-shot Learners这篇文章对CLIP进行了更加深入的探索,包括如何利用CLIP通过zero-shot、few-shot的方式解决VQA任务、图文蕴含任务。下面带大家详细梳理一下这篇论文的工作。

1. CLIP回顾

这一小节我们来简单回顾一下CLIP。Learning Transferable Visual Models From Natural Language Supervision(ICML 2021)提出CLIP模型,利用对比学习使用文本对图像进行无监督训练,再利用prompt进行zero-shot的图像分类。一般的图像分类任务,都需要对图像进行大量的标注得到标注数据,然后用户模型训练。而本文提出,使用天然的图片和对应的图片说明文本,预训练一个图片文本匹配的模型,就能实现效果很好的图片表示提取。

首先,作者构建了海量的图片-文本对,从多个数据集中筛选出图像和对应的图像标注为自然语言的数据,构造了image-text pair。这些数据会作为预训练的输入,用来学习文本和图片的匹配任务。模型采用了ResNet、ViT两种模型作为图像端的encoder,采用Transformer作为文本端的encoder。在预训练阶段采用对比学习的思路,给定一个batch的N条图像-文本的pair对,它们可以组成一个矩阵,对角线上的元素为正样本,其他组合为负样本。通过这种方式每个batch的数据生成N个样本,以及N*(N-1)个负样本。在Finetune阶段,文本端采用了prompt的方式,例如分类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值