微调神器 Finetuner，提升 CLIP 模型性能

最新推荐文章于 2024-03-12 00:42:46 发布

Jina AI

最新推荐文章于 2024-03-12 00:42:46 发布

阅读量4.4k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jina_AI/article/details/128019198

版权

经证实，在海量的数据集上训练的大型神经网络模型可以完成一些之前被认为是AI领域亟待攻克的问题。例如，正确识别猫和袋鼠的图像一直都被看作非常困难的问题，但现在通过使用大型的神经网络模型已经可以很好地解决。

然而，这些模型都是在类别广泛的数据集上预训练得到的，因此在完成一些具体的实际任务时，表现却不尽人意。

Jina AI Finetuner 通过增加新的训练数据来提高预训练模型的性能，进而更好的应用到具体任务中。Finetuner 对微调过程进行精简，并通过简化工作流程和处理 Jina AI Cloud 中所有操作复杂性和物理基础设施，使其更加的快速、高效。

我们将 Finetuner 应用于 OpenAI 的 CLIP 模型，并使用 LAION AI 最近发布的 CLIP Benchmark 来评估其性能。结果表明，当 Finetuner 利用一些特定实例的数据时，它在文本到图像检索任务的性能比预训练的模型提高了 63%。

用于图像检索的 CLIP 模型

CLIP 是 OpenAI 在 2021 年发布的用于将图像的特征表示与描述性文本的特征表示进行联合训练的网络模型。它由两个网络组成：图像编码器和文本编码器。它使用从互联网收集的 4 亿张带有描述文本的图像数据集中的图像-文本对模型进行预训练。文本编码器和图像编码器都是基于现有的网络架构，用于分别建模两种模态的特征。CLIP 的主要创新点在于训练时将这两个编码器连接在一起。

例如，当输入一张狗的图像时，图像编码器会生成一个特征向量，这个向量和文本编码器为文本输入“dog”生成的向量相似。这就意味着我们可以通过寻找相似的特征向量，检索到和文本“dog”匹配的图像。

上图是一个关于 CLIP 生成嵌入向量的图解示例。相较于猫的图像，我们更希望文本“photo of a dog”的嵌入向量和狗的图像特征有更高的余弦相似度。

由于用于训练 CLIP 模型的数据集规模很大且多样化，所以它在通用的文本到

最低0.47元/天解锁文章

关注

1
点赞
踩
31

收藏

觉得还不错? 一键收藏
1
评论
微调神器 Finetuner，提升 CLIP 模型性能

经证实，在海量的数据集上训练的大型神经网络模型可以完成一些之前被认为是AI领域亟待攻克的问题。例如，正确识别猫和袋鼠的图像一直都被看作非常困难的问题，但现在通过使用大型的神经网络模型已经可以很好地解决。然而，这些模型都是在类别广泛的数据集上预训练得到的，因此在完成一些具体的实际任务时，表现却不尽人意。Jina AI Finetuner 通过增加新的训练数据来提高预训练模型的性能，进而更好的应用到具...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。