使用OpenClip实现多模态嵌入：图像与文本齐飞

qq_37836323

于 2024-10-07 02:09:14 发布

阅读量198

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/qq_29929123/article/details/142734425

版权

引言

在现代人工智能的浪潮中，多模态嵌入模型，如OpenAI的CLIP，正迅速成为研究与应用的热点。这些模型能够处理并生成图像和文本的共同嵌入表示，促进了跨模态搜索、分类等任务的开发。本文将探讨OpenClip，一个开源实现的CLIP版本，帮助你快速上手。

OpenClip的多模态嵌入

OpenClip提供了多种预训练模型，可以用于嵌入图像和文本。以下是使用OpenClip的一些基本步骤。

安装和设置

首先，你需要安装必要的软件包：

%pip install --upgrade --quiet langchain-experimental
%pip install --upgrade --quiet pillow open_clip_torch torch matplotlib

列出可用模型

使用以下代码列出所有可用的CLIP嵌入模型和检查点：

import open_clip

open_clip.list_pretrained()

选择模型和检查点

你可以选择一个较大且性能更好的模型：

model_name = "ViT-g-14"
checkpoint = "laion2b_s34b_b88k"

或者选择一个较小但性能稍逊的模型：

model_name = "ViT-B-32"
checkpoint = "laion2b_s34b_b79k"

在langchain_experimental.open_clip.py中设置model_name和checkpoint。

嵌入图像和文本

使用以下代码嵌入图像和文本：

import numpy as np
from langchain_experimental.open_clip import OpenCLIPEmbeddings
from PIL import Image

# 使用API代理服务提高访问稳定性
clip_embd = OpenCLIPEmbeddings(model_name="ViT-g-14", checkpoint="laion2b_s34b_b88k")

# 图像URI
uri_dog = "/path/to/dog.jpg"
uri_house = "/path/to/house.jpg"

# 嵌入图像
img_feat_dog = clip_embd.embed_image([uri_dog])
img_feat_house = clip_embd.embed_image([uri_house])

# 嵌入文本
text_feat_dog = clip_embd.embed_documents(["dog"])
text_feat_house = clip_embd.embed_documents(["house"])