CLIP——跨越视觉与语言的桥梁

FLY AGAIN

已于 2024-09-11 00:42:54 修改

阅读量3.1k

点赞数 24

分类专栏： 9月挑战·日更博客 AIGC 文章标签： AIGC 人工智能 transformer 分类

于 2024-09-11 00:00:42 首次发布

本文链接：https://blog.csdn.net/Ma_mba_/article/details/142111589

版权

9月挑战·日更博客同时被 2 个专栏收录

15 篇文章

订阅专栏

AIGC

15 篇文章

订阅专栏

1. CLIP模型概述

在这里插入图片描述
Learning Transferable Visual Models From Natural Language Supervision

CLIP（Contrastive Language-Image Pre-training）模型是由OpenAI在2021年提出的一种多模态预训练模型，它通过对比学习的方式，将图像和文本嵌入到同一个语义空间中，使得模型能够理解图像和文本之间的语义关系。CLIP模型的核心思想是通过最大化图像表示与其相应文本描述之间的一致性，来预训练一个能够同时理解图像和文本的模型。

2. CLIP模型训练与推理

在这里插入图片描述

2.1 CLIP模型训练

在这里插入图片描述
如图，左半部分是CLIP模型的训练架构，通过对数据集中N个图像-文本对进行对比训练，使得模型能够理解文本和图像的语义关联关系，接下来将详细讲解训练过程的原理。

2.1.1 双流架构

CLIP模型采用了双流架构，分别处理图像和文本数据。
图像流通过ViT编码器提取视觉特征，文本流通过Transformer编码器处理语言信息。
两个流的输出在嵌入空间中进行对比学习，以实现图像和文本的语义对齐。

2.1.2 对比学习

在这里插入图片描述

对比学习是CLIP模型的核心，它通过比较正样本（匹配的图像-文本对，即图中对角线上N个匹配的图像-文本对）和负样本（不匹配的对，即N^2-N个没有匹配的图像-文本对）来训练模型。
这种学习策略使得模型能够学习到图像和文本之间的复杂关系，而不仅仅是简单的特征对应。
CLIP的对比学习框架提高了模型对视觉和语言数据的泛化能力。

2.1.3 海量数据无监督学习

CLIP的预训练是无监督的，不需要大量标注数据，可以从互联网上的文本和图像数据中学习。
CLIP模型的训练过程涉及大量的图像-文本对数据集，如OpenAI构建的WIT（WebImageText）数据集，包含了从互联网上收集的4亿个图像-文本对。
这些数据集为CLIP提供了丰富的训练素材，使其能够在没有显式监督标签的情况下，学习到图像和文本之间的深层语义关系。

2.1.4 模型训练与优化

CLIP模型的训练涉及大规模的数据集，包括图像和相关的文本描述。
训练过程中，模型需要优化损失函数，以确保图像和文本的嵌入向量在空间上尽可能接近。
模型的优化还包括正则化技术，以防止过拟合并提高模型的泛化能力。

2.2 CLIP模型推理

在这里插入图片描述
当CLIP模型预训练完成后， CLIP 转换为零样本分类器。首先和训练过程一样，也是需要图像编码器将给定的图像转换为图像特征，以及文本编码器将待选文本转换为文本特征。在推理中使用一个小方法，将数据集的所有类转换为标题，例如 “a photo of a {subject}”，将给定的类别分别填入subject，并预测 CLIP 估计的标题类与给定图像的最佳配对。
下面列举一系列不同类别的图像，和对应的匹配结果