文字生成图片是近年来多模态和大模型研究的热门方向,openai提出的CLIP提供了一个方法建立起了图片和文字的联系,但是只能做到给定一张图片选择给定文本语义最相近的那一个,实际项目开发中我们总是需要从一张图片获取描述,clip-interrogator应运而生。
代码:https://github.com/pharmapsychotic/clip-interrogator
用途:根据图像获取提示词,即图生文
体验:https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2