经证实,在海量的数据集上训练的大型神经网络模型可以完成一些之前被认为是AI领域亟待攻克的问题。例如,正确识别猫和袋鼠的图像一直都被看作非常困难的问题,但现在通过使用大型的神经网络模型已经可以很好地解决。
然而,这些模型都是在类别广泛的数据集上预训练得到的,因此在完成一些具体的实际任务时,表现却不尽人意。
Jina AI Finetuner 通过增加新的训练数据来提高预训练模型的性能,进而更好的应用到具体任务中。Finetuner 对微调过程进行精简,并通过简化工作流程和处理 Jina AI Cloud 中所有操作复杂性和物理基础设施,使其更加的快速、高效。
我们将 Finetuner 应用于 OpenAI 的 CLIP 模型,并使用 LAION AI 最近发布的 CLIP Benchmark 来评估其性能。结果表明,当 Finetuner 利用一些特定实例的数据时,它在文本到图像检索任务的性能比预训练的模型提高了 63%。
用于图像检索的 CLIP 模型
CLIP 是 OpenAI 在 2021 年发布的用于将图像的特征表示与描述性文本的特征表示进行联合训练的网络模型。它由两个网络组成:图像编码器和文本编码器。它使用从互联网收集的 4 亿张带有描述文本的图像数据集中的图像-文本对模型进行预训练。文本编码器和图像编码器都是基于现有的网络架构,用于分别建模两种模态的特征。CLIP 的主要创新点在于训练时将这两个编码器连接在一起。
例如,当输入一张狗的图像时,图像编码器会生成一个特征向量,这个向量和文本编码器为文本输入“dog”生成的向量相似。这就意味着我们可以通过寻找相似的特征向量,检索到和文本“dog”匹配的图像。
上图是一个关于 CLIP 生成嵌入向量的图解示例。相较于猫的图像,我们更希望文本“photo of a dog”的嵌入向量和狗的图像特征有更高的余弦相似度。
由于用于训练 CLIP 模型的数据集规模很大且多样化,所以它在通用的文本到