多模态预训练CLIP模型的强大为例

最新推荐文章于 2024-07-26 14:22:52 发布

fareise

最新推荐文章于 2024-07-26 14:22:52 发布

阅读量3.3k

点赞数 1

文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/fareise/article/details/124656571

版权

本文深入探讨CLIP模型，展示了其在零样本（zero-shot）和少量样本（few-shot）学习中解决VQA和图文蕴含问题的能力。通过对比学习和prompt技术，CLIP能有效进行图像分类和多模态任务。实验结果显示，CLIP在VQA任务上的表现显著优于其他方法，验证了其强大的跨模态理解能力。

摘要由CSDN通过智能技术生成

微信公众号“圆圆的算法笔记”，持续更新NLP、CV、搜推广干货笔记和业内前沿工作解读~ 后台回复“交流”加入“圆圆的算法笔记”交流群；回复“时间序列“、”多模态“、”迁移学习“、”NLP“等获取各个领域干货算法笔记~

最近在看ACL 2022论文的时候，发现了一篇很有意思的文章：CLIP Models are Few-shot Learners。这个文章标题马上让人联想起GPT3那篇文章Language Models are Few-Shot Learners。CLIP自2021年被提出以来一直是多模态领域研究的热点，结合对比学习和prompt这两种方法，利用文本信息进行图像的无监督训练，实现zero-shot的图像分类，也可以被应用到图片文本匹配等多模态任务中。CLIP Models are Few-shot Learners这篇文章对CLIP进行了更加深入的探索，包括如何利用CLIP通过zero-shot、few-shot的方式解决VQA任务、图文蕴含任务。下面带大家详细梳理一下这篇论文的工作。

1. CLIP回顾

这一小节我们来简单回顾一下CLIP。Learning Transferable Visual Models From Natural Language Supervision（ICML 2021）提出CLIP模型，利用对比学习使用文本对图像进行无监督训练，再利用prompt进行zero-shot的图像分类。一般的图像分类任务，都需要对图像进行大量的标注得到标注数据，然后用户模型训练。而本文提出，使用天然的图片和对应的图片说明文本，预训练一个图片文本匹配的模型，就能实现效果很好的图片表示提取。

首先，作者构建了海量的图片-文本对，从多个数据集中筛选出图像和对应的图像标注为自然语言的数据，构造了image-text pair。这些数据会作为预训练的输入，用来学习文本和图片的匹配任务。模型采用了ResNet、ViT两种模型作为图像端的encoder，采用Transformer作为文本端的encoder。在预训练阶段采用对比学习的思路，给定一个batch的N条图像-文本的pair对，它们可以组成一个矩阵，对角线上的元素为正样本，其他组合为负样本。通过这种方式每个batch的数据生成N个样本，以及N*(N-1)个负样本。在Finetune阶段，文本端采用了prompt的方式，例如分类