探索图像的密码:CLIP Interrogator —— 激发创造力的文本提示优化工具

探索图像的密码:CLIP Interrogator —— 激发创造力的文本提示优化工具

项目地址:https://gitcode.com/gh_mirrors/cl/clip-interrogator

想要了解如何生成与现有图片相似的新图像?【CLIP Interrogator】是你的答案。这是一个基于OpenAI的CLIP(Contrastive Language-Image Pre-training)和Salesforce的BLIP(Bootstrapping Language-Image Pretraining)模型的文本提示工程工具,它能帮助你优化文字描述,以匹配特定的图像,进而用于创建令人惊叹的艺术作品。

快速启动

现在,你可以直接在Colab、HuggingFace Spaces和Replicate上运行最新版本的CLIP Interrogator!只需点击相应的链接,即可轻松体验。

此外,对于比较不同CLIP模型的行为,仍可在Colab上找到旧版V1。

是什么?

CLIP Interrogator是一个强大的工具,它能够结合计算机视觉和自然语言处理,通过调整和优化文本提示来精确地匹配给定图像的语义。这些优化后的文本可以与诸如Stable Diffusion等文本到图像模型配合,从而在 DreamStudio 平台上创造出极具创新性的艺术作品。

作为库使用

要将CLIP Interrogator集成到自己的Python项目中,首先创建并激活一个虚拟环境,然后使用PIP安装所需的依赖项和软件包:

python3 -m venv ci_env
(for linux  ) source ci_env/bin/activate
(for windows) .\ci_env\Scripts\activate

pip3 install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu117
pip install clip-interrogator==0.5.4  # 或者安装包含BLIP2支持的最新WIP版本

之后,在你的脚本里简单调用即可:

from PIL import Image
from clip_interrogator import Config, Interrogator
image = Image.open(image_path).convert('RGB')
ci = Interrogator(Config(clip_model_name="ViT-L-14/openai"))
print(ci.interrogate(image))

选择合适的预训练模型至关重要,如对Stable Diffusion 1.x,推荐使用ViT-L-14/openai;对于Stable Diffusion 2.0,则推荐使用ViT-H-14/laion2b_s32b_b79k

配置自由度

你可以通过Config对象自定义CLIP Interrogator的行为:

  • clip_model_name:选择要用的OpenCLIP预训练模型。
  • cache_path:保存预计算文本嵌入的位置。
  • download_cache:是否从Huggingface下载预计算的嵌入。
  • chunk_size:CLIP的批次大小,较小的值适用于VRAM有限的系统。
  • quiet:如果设为True,则禁用进度条和文本输出。

低VRAM系统的设置可通过调用config.apply_low_vram_defaults()简化。

查看run_cli.pyrun_gradio.py示例,了解更多关于配置和Interrogator类的使用方法。

自定义术语排名 (要求版本0.6.0)

如果你希望针对自己的词汇列表进行评分,可以使用LabelTable类:

from clip_interrogator import Config, Interrogator, LabelTable, load_list
from PIL import Image

ci = Interrogator(Config(blip_model_type=None))
image = Image.open(image_path).convert('RGB')
table = LabelTable(load_list('terms.txt'), 'terms', ci)
best_match = table.rank(ci.image_to_features(image), top_count=1)[0]
print(best_match)

项目特点

  • 易用性:一键运行在多种平台上,无需复杂的本地设置。
  • 灵活性:支持多种CLIP模型,并可自定义配置以适应不同的硬件需求。
  • 创新性:结合了CLIP和BLIP的优势,使文本提示达到最佳匹配状态。
  • 扩展性:可以与自定义词汇表一起使用,实现个人化搜索和排名。

通过CLIP Interrogator,你将拥有解锁图像潜在信息的钥匙,激发无限创意,创造出独一无二的艺术作品。快来尝试这个令人兴奋的开源项目,让想象力飞翔吧!

clip-interrogator Image to prompt with BLIP and CLIP clip-interrogator 项目地址: https://gitcode.com/gh_mirrors/cl/clip-interrogator

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

申芹琴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值