CLIP模型调用的一段代码及解释

最新推荐文章于 2025-03-30 20:27:54 发布

pumpkin84514

最新推荐文章于 2025-03-30 20:27:54 发布

阅读量2.9k

点赞数 31

分类专栏： AI相关学习 python相关文章标签： transformer 人工智能

本文链接：https://blog.csdn.net/pumpkin84514/article/details/139729204

版权

代码示例

from transformers import CLIPProcessor, CLIPModel

# 加载预训练的CLIP模型和处理器
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# 显示图像
from IPython.display import Image, display
display(Image(filename="data_examples/truck.jpg"))

# 加载图像
from PIL import Image
image = Image.open("data_examples/truck.jpg")

# 准备文本标签
cls_list = ["dog", "woman", "man", "car", "truck",
            "a black truck", "bird", "a white truck", "black cat"]

# 使用处理器预处理图像和文本
inputs = processor(text=cls_list, images=image,
                  return_tensors="pt", padding=True)

# 使用模型计算图像和文本的匹配度
outputs = model(**inputs)
print(outputs.keys())

# 提取图像和文本的相似性分数
logits_per_image = outputs