探索图像的密码：CLIP Interrogator —— 激发创造力的文本提示优化工具

最新推荐文章于 2025-01-22 09:54:10 发布

申芹琴

最新推荐文章于 2025-01-22 09:54:10 发布

阅读量648

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00673/article/details/141049228

版权

探索图像的密码：CLIP Interrogator —— 激发创造力的文本提示优化工具

项目地址:https://gitcode.com/gh_mirrors/cl/clip-interrogator

想要了解如何生成与现有图片相似的新图像？【CLIP Interrogator】是你的答案。这是一个基于OpenAI的CLIP（Contrastive Language-Image Pre-training）和Salesforce的BLIP（Bootstrapping Language-Image Pretraining）模型的文本提示工程工具，它能帮助你优化文字描述，以匹配特定的图像，进而用于创建令人惊叹的艺术作品。

快速启动

现在，你可以直接在Colab、HuggingFace Spaces和Replicate上运行最新版本的CLIP Interrogator！只需点击相应的链接，即可轻松体验。

此外，对于比较不同CLIP模型的行为，仍可在Colab上找到旧版V1。

是什么？

CLIP Interrogator是一个强大的工具，它能够结合计算机视觉和自然语言处理，通过调整和优化文本提示来精确地匹配给定图像的语义。这些优化后的文本可以与诸如Stable Diffusion等文本到图像模型配合，从而在 DreamStudio 平台上创造出极具创新性的艺术作品。

作为库使用

要将CLIP Interrogator集成到自己的Python项目中，首先创建并激活一个虚拟环境，然后使用PIP安装所需的依赖项和软件包：

python3 -m venv ci_env
(for linux  ) source ci_env/bin/activate
(for windows) .\ci_env\Scripts\activate

pip3 install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu117
pip install clip-interrogator==0.5.4  # 或者安装包含BLIP2支持的最新WIP版本

之后，在你的脚本里简单调用即可：

from PIL import Image
from clip_interrogator import Config, Interrogator
image = Image.open(image_path).convert('RGB')
ci = Interrogator(Config(clip_model_name="ViT-L-14/openai"))
print(ci.interrogate(image))

选择合适的预训练模型至关重要，如对Stable Diffusion 1.x，推荐使用ViT-L-14/openai；对于Stable Diffusion 2.0，则推荐使用ViT-H-14/laion2b_s32b_b79k。

配置自由度

你可以通过Config对象自定义CLIP Interrogator的行为：

clip_model_name：选择要用的OpenCLIP预训练模型。
cache_path：保存预计算文本嵌入的位置。
download_cache：是否从Huggingface下载预计算的嵌入。
chunk_size：CLIP的批次大小，较小的值适用于VRAM有限的系统。
quiet：如果设为True，则禁用进度条和文本输出。

低VRAM系统的设置可通过调用config.apply_low_vram_defaults()简化。

查看run_cli.py和run_gradio.py示例，了解更多关于配置和Interrogator类的使用方法。

自定义术语排名 (要求版本0.6.0)

如果你希望针对自己的词汇列表进行评分，可以使用LabelTable类：

from clip_interrogator import Config, Interrogator, LabelTable, load_list
from PIL import Image

ci = Interrogator(Config(blip_model_type=None))
image = Image.open(image_path).convert('RGB')
table = LabelTable(load_list('terms.txt'), 'terms', ci)
best_match = table.rank(ci.image_to_features(image), top_count=1)[0]
print(best_match)