CLIP知识蒸馏项目教程

最新推荐文章于 2025-05-17 03:26:57 发布

怀创宪

最新推荐文章于 2025-05-17 03:26:57 发布

阅读量1.1k

点赞数 28

本文链接：https://blog.csdn.net/gitblog_00865/article/details/142839126

版权

CLIP知识蒸馏项目教程

clip-distillation Zero-label image classification via OpenCLIP knowledge distillation 项目地址: https://gitcode.com/gh_mirrors/cl/clip-distillation

1. 项目介绍

1.1 项目概述

clip-distillation 是一个由NVIDIA-AI-IOT团队开发的开源项目，旨在通过OpenCLIP模型的知识蒸馏技术，实现零标签图像分类。该项目允许用户在没有标注数据的情况下，创建自定义的图像分类模型。即使您不需要直接使用图像分类器，该项目也可以作为如何使用知识蒸馏优化模型以进行推理的灵感，或者作为如何在NVIDIA Jetson平台上使用量化感知训练和结构化稀疏性训练模型的示例。

1.2 主要功能

数据搜索与下载：从LAION数据库中搜索并下载相关图像数据。
OpenCLIP嵌入计算：预计算OpenCLIP模型的嵌入，以加速训练过程。
学生模型训练：训练学生CNN模型以模仿OpenCLIP模型。
推理支持：使用NVIDIA TensorRT进行推理，支持INT8模型和2:4结构化稀疏模型的加速。

2. 项目快速启动

2.1 环境准备

确保您已经安装了Python 3.x，并安装了以下依赖库：

pip install torch torchvision openclip-torch

2.2 数据准备

首先，创建一个包含文本提示的文件 data/text_prompts.txt，每行一个提示：

a dog
a cat

2.3 搜索并下载图像

使用以下命令搜索并下载相关图像：

python3 search_clip_images.py \
    "data/text_prompts.txt" \
    "data/image_urls.txt" \
    -n 5000 \
    -m 10000 \
    --max_workers 2 \
    --append

python3 download_images.py \
    "data/image_urls.txt" \
    "data/images" \
    --max_workers 32 \
    --timeout 2

2.4 计算OpenCLIP嵌入

预计算OpenCLIP模型的嵌入：

python3 compute_openclip_embeddings.py \
    data/images \
    data/embeddings \
    --batch_size 16 \
    --num_workers 8 \
    --model_name ViT-B-32 \
    --pretrained laion2b_s34b_b79k

2.5 训练学生模型

使用以下命令训练学生CNN模型：

python3 distil_model_embeddings.py \
    resnet18 \
    data/images \
    data/embeddings \
    data/models/resnet18 \
    --output_dim 512 \
    --pretrained