Jina AI 多模态嵌入模型 - jina-clip-v1
jina-clip-v1 是 Jina AI 最新推出的多模态嵌入模型。与 OpenAI CLIP 相比,它大幅提升了纯文本检索方面的性能,同时在文本图像跨模式检索等方面也有所提升。
- 模型信息:
- jina-clip-v1 沿用了 OpenAI CLIP 的模式: 共同训练文本和图像模型并在同一嵌入空间中生成输出。
- 在文本编码方面,它采用了 Jina BERT v2 架构,该架构能支持 8k token 输入和 768 维向量输出,比 OpenAI CLIP 模型支持的 77 token 输入要高 100 多倍。
- 在图像嵌入方面,它使用了北京人工智能研究院的 EVA-02 模型。在实际测试中,该模型的表现明显优于其他同类模型。
- 在模型训练方面,Jina 采用新的多任务对比训练方法来训练 jina-clip-v1 模型。
- 性能评估:
Model Text-Text Text-to-Image Image-to-Text Image-Image jina-clip-v1 0.429 0.899 0.803 0.916 openai-clip-vit-b16 0.162 0.881 0.756 0.816 vs OpenAI CLIP 165% 2% 6%<