CLIP官方github代码详解

系列文章目录



一、Usage

1、conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=11.0

conda: 这是一个包管理工具,用于管理 Python 环境和安装软件包。
install: 这是一个命令,表示要安装软件包。
–yes: 这个选项表示在安装过程中自动确认所有提示,避免手动确认。
-c pytorch: 这个选项指定了要从名为 pytorch 的频道(repository)中安装软件包。Conda 允许从不同的频道获取软件包。
pytorch=1.7.1: 这是要安装的具体软件包及其版本。在这里,表示要安装 PyTorch 的 1.7.1 版本。
torchvision: 这是另一个要安装的软件包,通常与 PyTorch 一起使用,提供计算机视觉相关的工具和数据集。
cudatoolkit=11.0: 这是要安装的 CUDA 工具包的版本,CUDA 是用于 GPU 加速计算的工具。这里指定为 11.0 版本。

2、代码

import torch  # 导入 PyTorch 库,用于深度学习相关操作
import clip  # 导入 CLIP 库,用于处理图像和文本的模型
from PIL import Image  # 从 PIL 库导入 Image 模块,用于图像处理

# 检查是否有可用的 GPU,如果有则使用 CUDA,否则使用 CPU
device = "cuda" if torch.cuda.is_available() else "cpu"

# 加载 CLIP 模型和预处理函数,使用 ViT-B/32 结构,指定计算设备
model, preprocess = clip.load("ViT-B/32", device=device)

# 打开指定的图像文件,进行预处理,并增加一个维度(batch size),然后移动到指定设备
image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)

# 对给定的文本进行标记化处理,转换为模型可以理解的格式,并移动到指定设备
text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)

# 在不计算梯度的情况下进行推理,节省内存和计算资源
with torch.no_grad():
    # 使用模型编码图像,得到图像特征
    image_features = model.encode_image(image)
    
    # 使用模型编码文本,得到文本特征
    text_features = model.encode_text(text)
    
    # 计算图像和文本之间的对比 logits
    logits_per_image, logits_per_text = model(image, text)
    
    # 对 logits 进行 softmax 操作,得到每个文本标签的概率分布
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()

# 打印每个标签的概率,显示模型对每个文本的预测概率
print("Label probs:", probs)  # prints: [[0.9927937  0.00421068 0.00299572]]

3、

二、

1、

2、

3、

三、

1、

2、

3、

四、

1、

2、

3、

五、

1、

2、

3、

六、

1、

2、

3、

七、

1、

2、

3、

八、

1、

2、

3、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值