Jina CLIP v2:多语言多模态的文本图像向量模型

b8949c0ea3937b382c7ebb55bda7b179.png

多模态向量通过统一的数据表示,实现了不同模态数据的搜索和理解,是神经检索和多模态生成式 AI 应用的基石。今天,我们推出了全新的通用多语言多模态向量模型 —— jina-clip-v2。该模型基于 jina-clip-v1jina-embeddings-3 构建,并实现了多项关键改进:

  • 性能提升:v2 在文本-图像和文本-文本检索任务中,性能较 v1 提升了 3%。此外,与 v1 类似,v2 的文本编码器也能高效地应用于多语言长文本密集检索索,其性能可与我们目前最先进的模型 —— 参数量低于 1B 的最佳多语言向量模型 jina-embeddings-v3(基于 MTEB 排行榜)—— 相媲美。

  • 多语言支持:以 jina-embeddings-v3 作为文本塔,jina-clip-v2 支持 89 种语言的多语言图像检索,并在该任务上的性能相比 nllb-clip-large-siglip 提升了 4%。

  • 更高图像分辨率:v2 支持 512x512 像素的输入图像分辨率,相比 v1 的 224x224 有了大幅提升。能够更好地捕捉图像细节,提升特征提取的精度,并更准确地识别细粒度视觉元素。

  • 可变维度输出jina-clip-v2 引入了俄罗斯套娃表示学习(Matryoshka Representation Learning,MRL)技术,只需设置 dimensions 参数,即可获取指定维度的向量输出,且在减少存储成本的同时,保持强大的性能。

模型开源链接https://huggingface.co/jinaai/jina-clip-v2

API 快速上手 https://jina.ai/?sui=&model=jina-clip-v2

模型架构

ee79655dc80d418474ec11992fc60f20.png

jina-clip-v2 是一个 9 亿参数的类 CLIP 模型,它结合了两个强大的编码器:文本编码器 Jina XLM-RoBERTajina-embeddings-v3 的骨干网络)和视觉编码器 EVA02-L14(由 BAAI 开发的高效视觉 Transformer)。这些编码器经过联合训练,生成图像和文本的对齐表示。

### CLIP模型中的分词器实现与使用 CLIP(Contrastive Language–Image Pre-training)是一种多模态预训练模型,其核心在于通过联合图像文本的表示来完成跨模态任务。为了处理文本输入,CLIP 使用了一个专门设计的分词器(tokenizer)。以下是关于 CLIP 模型中分词器的具体实现和使用方法。 #### 分词器的作用 分词器的主要职责是对输入的自然语言文本进行编码,将其转换为模型可接受的形式。具体来说,分词器会将文本拆分为一系列标记(tokens),并将这些标记映射到对应的整数 ID。这一过程通常包括以下几个阶段: 1. **文本清洗**:去除无关字符或特殊符号。 2. **分词**:基于特定规则(如字节对编码 BPE 或 WordPiece)将文本分割为子词单元。 3. **ID 映射**:将每个子词单元映射为其在词汇表中的唯一索引。 对于 CLIP 模型而言,其分词器通常是基于 Byte-Level BPE(BPE 的变体)实现的[^4]。这种分词方式具有良好的泛化能力,尤其适合处理未见过的单词或稀有词语。 #### 实现细节 CLIP 模型的分词器实现依赖于 Hugging Face 提供的 `transformers` 库。以下是一个典型的加载和使用 CLIP 分词器的代码示例: ```python from transformers import CLIPTokenizer # 加载 CLIP 分词器 tokenizer = CLIPTokenizer.from_pretrained("/media/zhangbin/DATA/DataCache/jinaai/jina-clip-v2") # 输入文本 text_input = "A plate of beignets" # 对文本进行编码 encoded_inputs = tokenizer(text_input, return_tensors="pt", padding=True) print(encoded_inputs) ``` 上述代码展示了如何从指定路径加载 CLIP 分词器,并对其进行初始化。随后,通过对一段文本调用 `tokenizer()` 方法,可以得到经过编码后的张量形式输出。此输出可以直接作为 CLIP 模型的输入[^3]。 #### 推理流程中的应用 当执行推理任务时,分词器的结果会被传递给模型以生成预测结果。例如,在分类任务中,可以通过如下代码获取最终的预测类别: ```python import torch from transformers import CLIPModel # 加载模型 model = CLIPModel.from_pretrained("/media/zhangbin/DATA/DataCache/jinaai/jina-clip-v2") with torch.no_grad(): outputs = model(**encoded_inputs) # 将编码后的输入传入模型 logits = outputs.text_logits # 获取文本部分的 logit 值 predicted_class_idx = logits.argmax(-1).item() print("Predicted class:", model.config.id2label[predicted_class_idx]) ``` 这里的关键步骤是利用无梯度上下文管理器 (`torch.no_grad`) 来禁用反向传播操作,从而提升推理效率[^1]。 #### 性能优化 如果希望进一步提高推理速度,可以考虑启用 XLA 编译器或其他加速技术。例如,TensorFlow 和 JAX 中的 XLA 能够显著改善计算图的运行时间,因为它会对底层代码实施多项优化措施,比如循环展开、内联函数以及向量化等[^2]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值